東芝デジタルソリューションズ株式会社

お客さまインタビュー

愛着の持てる流暢な発話でゲーム業界に新風
RECAIUS 音声合成ミドルウェア ToSpeak™

カンパニー:株式会社カプコン×ソリューション:RECAIUS 音声合成ミドルウェア ToSpeak™
本部ビル

株式会社カプコンが提供するコミュニケーションゲーム「めがみめぐり」は、ニンテンドー3DSシリーズ(以下、3DS)史上初めて、日本の交通系ICカードと連動し、新たな遊び方を提案するゲームだ。このゲームの主人公であるツクモガミの「ツクモ」が音声合成技術によって愛着の持てる流暢な発話をして、ユーザーとコミュニケーションが楽しめるようになっている。この音声合成技術を提供しているのが、株式会社東芝 インダストリアルICTソリューション社(以下、東芝)が提供する「RECAIUS 音声合成ミドルウェア ToSpeak™」(以下、RECAIUS ToSpeak)だ。

3DSというハードウェアの制約がある中でネットワーク接続を前提とせず、軽い処理で小さなメモリサイズでも、まるで生きているかのような自然な発話を実現できる技術を探していた。
小さなメモリサイズの音声合成で感情もしっかり表現できる技術「RECAIUS ToSpeak」を採用。抑揚や声の高さの容易な調整と、意図通りに読み上げる語彙辞書機能でユーザーへの良質な疑似体験を提供している。
導入の背景

コミュニケーションゲームに必要な、膨大な音声の収録

野中 大三 氏

第四開発部
プロデューサー

野中 大三 氏

 エンターテインメントを通じて遊びの文化を創造する「感性開発企業」を経営理念として、多くのユーザーを熱狂させるゲームを次々と市場に送り出す株式会社カプコン。「ストリートファイター」や「バイオハザード」など数多くのヒットタイトルを提供しており、人気コンテンツを多方面に展開する“ワンコンテンツ・マルチユース”戦略によって経営基盤の安定化と継続的な成長を成し遂げている。

 そんな同社が2016年12月8日にリリースした「めがみめぐり」は、サイコロを振って全国9,000以上の駅を網羅したマップをめぐり、主人公であるツクモを成長させていくコミュニケーションゲームである。無料でダウンロードするフリーミアムモデルで、アイテム導入で課金するスタイル。リリース後、わずか2週間で25万ダウンロード*1、2017年1月中旬には40万ダウンロード*2を突破し、大きな話題となっている。3DS用ゲームでは後課金で展開するタイトルがまだ少なく、さらに音声合成だけでほとんどの発話を行うキャラクターが登場するというゲームも他には類を見ない独自のもの。ただ、ゲームに登場する駅名すべてを発話する必要があり、録音で対応するとなれば、声優の膨大な音声情報を収録しなければならない。「駅の数だけでも9,000を超えるほどのボリュームです。こんなに多くの音声を3DS用のゲームに収録するのは難しいと困っていました」と第四開発部 プロデューサー 野中 大三氏は当時を振り返る。

*1 2016年12月22日現在
*2 2017年1月22日 カプコン社“めがみめぐり”ウェブサイトで告知

導入の経緯

音声合成技術ならではの柔軟性

山東 善樹 氏

プロダクション部
サウンド開発室
サウンドディレクター

山東 善樹 氏

 そこで出たアイデアが、音声合成による発話だった。音声合成を使えば、すべての駅名を事前に収録する必要がない上に、ユーザーが入力したパーソナルな情報を元にキャラクターと会話ができるコミュニケーションゲームが実現できると考えたという。「事前に収録すると、新しい駅ができたり駅名が変更になったりした場合に、声優に追加でとり直しをお願いしなければなりません。しかし音声合成であれば、その手間をかけることなく柔軟に対応できるという判断もありました」と語るのはプロダクション部 サウンド開発室 サウンドディレクター 山東 善樹氏だ。

 実際に音声合成について情報収集したところ、大きな壁が立ちふさがることになる。「3DSというハードウェアの制約から、データ処理の重さや必要なメモリ容量が大きな問題であることがわかったのです」と山東氏。野中氏は「テレビゲームは光と音でユーザーに体験を与えるもの。それに加えてインタラクティブな動作をさせようとすると、3DSの対応範囲を超えてしまう技術もありました」と振り返る。発話している最中はボタン入力ができない、フェーズ切り替えに1分以上かかるなど、コミュニケーションゲームとして満足のいく音声合成技術が見つからない日々が続いていた。

 「世にある音声合成の多くは、エンジンの小型化という方向に技術が進んでおらず、私たちのニーズとはマッチしていないものが多かった」と野中氏。他の音声合成技術は必要メモリサイズが大きいものが多く、組込機器や配信アプリには適していない傾向がある。それに対し、東芝の音声合成は、音質が良く、データ処理の軽い、サイズの小さなミドルウェアとして、カーナビをはじめとした車載運転支援機器やゲーム機器、ブックリーダーなどの組込機器や、スマートフォンの配信アプリなどに多くの実績がある。そんな中で、目に留まったのが、東芝が提供する「RECAIUS ToSpeak」だった。

導入のポイント

肉声に近い発話への“魔法のツボ”

 「RECAIUS ToSpeak」は、音素材がわずかでも音声合成辞書が作成でき、その音声合成による自由な発話でプレイヤーとのコミュニケーションが可能になる技術で、音質的にも検討の初期段階から可能性が感じとれるものだったという。「他の技術と比べて圧倒的に音が良かった。これだけのメモリサイズで、ここまでできるのか!と驚くほどでした」と山東氏。今回の企画では、感情移入しやすい、肉声に近いキャラクターの発話が求められていたが、実際の音声合成市場では感情表現も人間の声に近づけるという発想で開発は進められていないのが現実とのこと。「楽しくしゃべってくれたら嬉しい、すねていたら何とかしてあげよう、そういった感情が感じられる音声合成が私たちには必要でした。まさにその要件を満たしていたのがRECAIUS ToSpeakだったのです」と野中氏は当時の様子を振り返る。

 もちろん、本件が動き出した当初は、キャラクターが意図通り感情豊かにしゃべっているかのような肉声に近い発話が実現できていたわけではなかった。「最初はベースとなる声優さんの声をもとに、それに近いものを作っていこうと考えていましたが、初期の段階では生声と音声合成の表現力にだいぶ乖離がありました」と山東氏。そこで生声と合成音声を組み合わせるのではなく、音声合成をベースに感情移入できる発話に近づけるほうがいいと判断し、山東氏は複数の声優に協力を依頼。RECAIUS ToSpeakの特性を理解すべく事前に費用をかけてテスト収録してみることにしたのである。「私たちが当時“魔法のツボ”と呼んでいたRECAIUS ToSpeakのカスタムボイス辞書作成環境に声優の声を素材として入れる際、低音を削ったり音を大きくしたりなどのチューニングをした上で、東芝に依頼したところ、さらに良い合成音声が実現できたのです。合成音声そのものを作り出す段階からアレンジできるRECAIUS ToSpeakなら、私たちが理想とする、まるで生きているかのような発話が実現可能になると考えたのです」(山東氏)。そしてついに、東芝が提供する「RECAIUS ToSpeak」を新たなゲームタイトルの仕組みに採用することになる。

導入の効果

音声合成技術と語彙辞書、カスタムボイス辞書により良質な疑似体験をユーザーに提供

主人公「ツクモ」(中央)

主人公「ツクモ」(中央)

 このゲームには、「RECAIUS ToSpeak」をベースに共同開発した“めがみスピークエンジン”が搭載され、愛着の持てる音声合成での会話を実現している。めがみスピークエンジンでは、音声合成によって発話された声の前後に声優の吐息やため息、咳払いなどの生声を挿入する“オセロットシステム”を新たに開発。こういった声を付加することで感情移入しやすく工夫されているのが特徴の1つだ。

 さらに、2次元のメインキャラクターのイラストをうまく動かせるかどうか、グラフィック面でも新たな試みがある。「提供方法やその技術的なアプローチなど“めがみめぐり”そのものがこれまでにない新たな試みと言えます。美少女キャラクターのゲームで見ると10万ダウンロードを超えるものが少ない状況下で、その反響は予想以上に大きい。軽い処理、小さなメモリサイズで発話できるRECAIUS ToSpeakを採用したことで、グラフィックが処理の上やメモリ上でさほど制約を受けなかったことも、このゲームが多くの方々に受け入れられた要因の1つです」と野中氏は評価する。

 また野中氏は、感情がしっかり表現できる技術である点を改めて評価する。「3DSというデバイスでゲームを作るうえで、処理の軽さと小さいメモリサイズはクリティカルな問題。感情表現は開発者が目指している方向性、イデオロギーの問題です。これまで、一般的な音声合成の研究では、処理が軽く小さいメモリサイズでの音声合成において、本当の意味での感情表現はあまり重要視されていなかった部分のようですが、私たちはそこにこだわりがあります。東芝と同じ目標に向かって一緒に進めたことに満足しています」。

 また、入力テキストへ付加するタグによって発話の抑揚や声の高さ、話すスピードが柔軟に変更できる仕様となっており、「スピード調整が容易にできる機能があることで、ゲーム内で設定されたミニゲームの1つがアイデアとして生まれたほどです」と山東氏はその使い勝手の良さを満足げに語る。

 きれいな発音で読み上げるだけでなく、ユーザーが入力した言葉を意図したとおりに読み上げる語彙辞書機能についての評価も高い。「BBQ」と入力して「バーベキュー」と読み上げたり、あるアニメだけに使われている漢字の読み方を正確に読み上げたりすることも可能で、「主人公がまるで生きているかのような良質な疑似体験を提供するのに一役買っています」と野中氏。実際にユーザーからの高評価がTwitterに書き込まれるなど、話題作りに貢献しているという。

 東芝の印象については、同社から見ればギャップがある部分も少なくなかったと山東氏。「私たちは感覚でやっている部分がかなり大きく、定量的に判断することが難しい場面も。それでもこちらの要望に親身になって応えていただき、感謝しています」。また、野中氏は「音声合成は確かに1つの部品にすぎませんが、それだけではなく、商品全体のクオリティを東芝と共に高めていくこともできました」と評価する。

“めがみスピークエンジン”の仕組み

“めがみスピークエンジン”システムフロー
将来の展望

エンターテインメントの可能性を広げるRECAIUS™に期待

野中 大三 氏(左)、山東 善樹 氏(右)

野中 大三 氏(左)、山東 善樹 氏(右)

 今後について野中氏は、「音声合成とゲームの歴史は意外と長いものですが、今回はコミュニケーションゲームというジャンルの中で新しい提案ができたと考えています。それをさらに追及していきたい」。特に共同開発した“めがみスピークエンジン”が新たな試みであり、このゲームの伸びしろでもある。発話の自由度を格段に高めてくれるこのエンジンを利用して、コミュニケーションゲーム以外の活用も視野に入れているという。めがみめぐり自体は、スマートフォンなど新たなプラットフォームにも対応し、ニーズに合わせてコンテンツの展開も検討していく状況だ。

 また山東氏は「RECAIUSには、音声合成以外にも音声認識や画像認識、意図理解などさまざまな技術が備わっているので、エンターテインメントとして新たなアイデアがあれば、他の技術も取り入れていきたい」と今後の可能性についても言及する。「現実世界とゲームの世界のリンクは永久に消えないテーマ。このゲームで現実とリンクするのはICカードが起点となりますが、RECAIUSという技術をもっと活用すれば、現実とリンクするようなエンターテインメントがたくさん生み出せると考えています」と野中氏。

 ゲーム業界における音声合成の可能性を広げた「RECAIUS ToSpeak」。今後も「RECAIUS」は、音声・画像認識、翻訳、意図理解などさまざま技術でゲーム業界に新たなエンターテインメントの可能性を与え、さらにその技術は機器への組み込みだけでなくクラウド環境でも活用が進んでいくだろう。

この記事の内容は2016年12月26日に取材した内容を元に構成しています。
記事内における主な数値データ、組織名、役職などは取材時のものです。

COMPANY PROFILE

会社名
株式会社カプコン
創立
1979年5月30日
代表者
代表取締役社長 最高執行責任者 辻本春弘
本社所在地
大阪市中央区内平野町3-1-3
事業概要
家庭用テレビゲームソフト、オンラインゲーム、モバイルコンテンツおよびアミューズメント機器等の企画、開発、製造、販売、配信ならびにアミューズメント施設の運営
URL
http://www.capcom.co.jp/ 別ウィンドウで開きます
今回ご紹介した導入事例に関するお問い合わせはこちら お気軽にお問い合わせください
お問い合わせ 044-331-1100 平日10:00〜17:00
ソリューションのより詳しい情報はこちらから ソリューション紹介