東芝デジタルソリューションズ株式会社

クラウドサービスで人と人・モノをつなげる/梅木 秀雄

音声・画像と知識処理で豊富な蓄積
メディアインテリジェンスの新時代をリードする

東芝は、1960年代からメディアインテリジェンスに取り組んできました。長年にわたる研究開発の成果は、音声・言語・画像などの高性能な処理エンジンを搭載した製品やサービスに結実。近年注目されているディープラーニングに代表される強力な機械学習を取り込み、さらなる進化を遂げようとしています。IoT時代の先にある、人とモノ、ICTが日常的につながる未来に向けて、これらの技術の強みを生かし、東芝は、安心・安全で快適な社会づくりに貢献します。

「モノ×ICT×人」の世界ではメディアインテリジェンスが不可欠

 IoT※1時代、モノとモノがつながることで新しい価値が生まれます。そして、IoTの先にあるのが、「モノ×ICT×人」でつながり、人々の生活やビジネス活動を安心・安全、かつ快適に支える「人を想う」ICTであると、私たちは考えています。

 そこで不可欠となるのが、人の言動から意図や状況を理解する技術であり、それがメディアインテリジェンスです。東芝は、手書きの郵便番号を自動で読み取る郵便区分機の開発を皮切りに、1960年代からこの技術に取り組んでいます。

 メディアインテリジェンスには「音声」「映像」「言葉と知識」という大きく三つの分野があります。これらを連携、融合させ、音声や映像から人の意図や状況を理解し、人に分かりやすく伝え、人と人の理解をサポートするクラウドサービスの総称を「RECAIUS(リカイアス)」と名付け、サービスの提供を開始しました。人が持つ「見る・聴く・話す」能力をRECAIUSが補完することで、安心・安全で快適な社会づくりを目指しています。

  • ※1 IoT:Internet of Things

学習やクラウドソーシングで辞書を常に進化させる

図1 RECAIUSの活用イメージ

 RECAIUSでは、さまざまな入力デバイスから取り込んだ音声や映像のデータをクラウド上の認識エンジンで処理し、意図理解を行います。エンジンが参照する各種辞書は処理システムの中核的な存在であり、ここに東芝の強みがあります。Webなどから収集した膨大な情報を学習する仕組みと、クラウドソーシング※2による情報の収集と補正を組み合わせることで、効率的に音声認識などのメディア知識処理の品質を向上させています。

 RECAIUSの適用領域には、主に右記のようなものがあります(図1)。

 まず、フィールド作業を支援する領域では、医療や介護、工場、倉庫などでの情報共有や作業指示などに活用できます。その他、音声や画像を使った検索や情報ナビなどでの問い合わせに応答するような領域や、講演中の音声を字幕にする、音声で翻訳するといったコミュニケーションを支援する領域。そして、主に音声合成技術を活用した広告やゲームのコンテンツ制作を支援する領域、人の姿や顔の映像から施設内の状況をモニタリングする領域などがあります。

 こうした価値を生み出す標準サービスは七つ。既に提供を開始している「音声書き起こしエディタ」と「音訳エディタ」「音声ビューア」の三つに加え、今年中に四つのサービスがリリースされる予定です。

 音声書き起こしエディタは、音声を聴きながら議事録などの内容を人が書き起こす作業を支援します。音声認識による文字候補の提示、書き起こしていない部分の自動リピート再生、自動話者識別などの特長的な機能により、作業時間を平均3割ほど短縮することができます。

 また、音訳エディタは、音声合成技術を用いて主に視覚障害者向けに図書を音声化する(音訳)サービスです。現在の多くの音訳は人が読み上げて録音しているため、1冊の音声化に時間がかかり、音訳図書の数を一気に増やすことが難しいという状況です。コンピューターがテキストから音声合成する音訳では、人の声の録音に比べて、作業時間が3分の1以下になります。

 2016年4月に施行される障害者差別解消法を見据えて、同様のニーズは公的機関や企業でも高まっていくものと考えられます。

 次に、音声ビューアについて述べる前に、その土台となる音声認識技術を説明します。

 東芝は長年にわたって音声認識技術の研究開発を行ってきました。最近ではさまざまな最新の技術を取り込み、より高精度な話し言葉の認識が可能になりました。例えば、講演中の音声をリアルタイムで認識してテキスト化する場合、特定の用語などを辞書に登録できていれば、平均85%以上の認識率を実現できます。従来、高い認識精度の実現には大量の学習用データが必要で、収集と学習のコストが導入への障壁になっていました。そこでRECAIUSでは、大規模なテキストデータベースを活用して、少量の学習用データからでも高精度な辞書を構築できる技術を確立しました。また、クラウドソーシングを使ってトレンドの単語を半自動で辞書登録する仕組みもあります。これは東芝製4K対応テレビのレグザ「Z10X」シリーズの番組検索などで使われる音声認識エンジンの辞書更新にも活用されています。

  • ※2 クラウドソーシング:crowd-sourcing 不特定多数の人(crowd)にデータ処理やコンテンツ制作などの作業を依頼し、集まった多数の作業結果から成果を得ること

マルチスケール要約で情報に素早くアクセス

 音声ビューアはこの音声認識技術と情報要約技術を融合させて生まれた、音声データを可視化するサービスです。

 これまで音声認識は、ビジネス用途では主にコールセンターなど長時間の電話応答のテキスト化と分析で活用されていました(参照記事)。また、一般用途ではスマートフォンで文字入力のための補助的な手段にとどまっています。音声認識の精度向上とカスタマイズや運用の効率化が進むことで、今後は講演や会議、SNSなどビジネスや生活の幅広いシーンで、長時間の音声の記録と認識を活用したコミュニケーション支援が可能になると考えています。

 しかし、長時間の音声データをテキスト化するだけでは、構造のない文字の羅列となり、かえって扱いづらくなります。ポイントは、コールセンターでの会話内容の分析にも用いられた、大量の情報を人が理解しやすくする情報要約の技術です。例えば、地図は縮尺によって表示される内容が変わります。ズームインすればビル名などの詳細な情報も表示しますが、ズームアウトすると自治体名など重要度の高い情報だけが残ります。こうしたマルチスケールの情報要約という考え方は、大量の音声データを把握する上でも有効です。地図の空間軸を音声データの時間軸に置き換えて、音声認識とマルチスケール要約を融合したものが音声ビューアです。

図2 RECAIUS音声ビューアの利用イメージと画面例

 長時間の音声データを蓄積しても、自動抽出されたキーワードを可視化した画面で全体を見渡し、キーワードを選ぶだけで対応する発言を容易に探すことができます。また、音声認識テキストに合わせて、実際の音声を聴いて確認することもできます(図2)。

 こうした機能によって、講演や講義など長時間にわたる音声の内容を把握できるほか、フィールドワークの多い社員間で音声で手軽にアイデアや気づきの情報を交換する、会議内容のポイントを議事録の代わりに音声で記録して共有するなど、ビジネスシーンでの新たな活用が期待できます。

表現力の高い音声合成と認識性能が高い音声認識・人物認識

[写真] 梅木 秀雄

 今後登場するのは「音声クリエータ」と「同時通訳」「音声対話」「人物ファインダ」の各種サービスです。

 音声クリエータは、多様な感情表現が可能な音声合成のサービスです。日本語に加えて、英語や中国語、韓国語など11言語に対応しています。音声クリエータの音声合成エンジンは、人気のスマートフォンアプリ「Yahoo!カーナビ」のナビ音声にも活用されています。

 東芝の音声合成技術の特長は、高音質かつ表現力の高さです。30分程度の録音サンプルから1時間ほどの処理で話者の音声特徴を学習でき、似た声で任意のテキストを音声化します。

 同時通訳の技術も進化しています。従来は1文ごとに入力していたため、スムーズな会話ができませんでした。これを、文章を区切らずに自然に会話した音声を同時かつ連続的に認識・翻訳・テキスト表示することで、コミュニケーションの質を高めることができました(参照記事)。

 音声対話は、相手の意図を汲んだ上で的確な自動応答を行う機能です。例えば、コンタクトセンターで「住所が変わった」「引っ越した」という音声を認識した場合には、住所変更の手続きに導きます。一般的に、多様な表現や曖昧な表現への対応はコンピューターが苦手とする分野ですが、クラウドソーシングで効率的に多様な表現を集め、意図理解モデルを学習することで、音声対話のレベルを大きく向上させました。

エッジでできることはエッジで
プライバシーとネットワークの課題を解決

 最後に、人物ファインダです。ここで用いられているのは顔・人物画像認識の技術です(参照記事)。

 カメラに映った人が誰かを特定する技術と、人の姿や動きを検出する技術を組み合わせて、人の活動に関わる意図や状況を判定します。

 例えば、ショッピングモールに設置したカメラで顧客の動きや密度を可視化し、その情報を基に、顧客の密度がより高い場所へと陳列棚を移動するなどの使い方が考えられます。また、イベント会場に訪れたVIPを認識して、担当者に連絡することも可能でしょう。

 ただ、顔などの映像データをクラウド上に蓄積することは、プライバシーの観点で注意が必要です。また、映像はデータ量が大きいためネットワークの負荷の問題もあります。

 そこで私たちは、エッジ(デバイス側)でできることはエッジに任せます。簡単な画像処理はエッジで行い、処理済みのデータだけをクラウドに送ることで、プライバシーやネットワークの課題を解決します。ここで重要な役割を担うのが、東芝が開発した画像認識プロセッサ「Visconti2」です。Visconti2※3とカメラを組み合わせることで、店舗での顧客導線の解析や混雑度の把0握などへの応用が可能です。

 このようにRECAIUSは、音声や画像、文字などのデータを統合して扱うことができます。今後はさらに、ロボットなどと人が自然に対話する、複雑な状況を分かりやすく言葉で説明する、特定の知識を集めてさまざまな疑問に自動で答えるなど、インターフェース技術と知識処理を融合した新たなサービスに向けてさらに進化していきます。

  • ※3 Visconti2搭載カメラは、2015年10月現在では試作品です

カスタマイズの容易さで
「お客さま最適」を追求する

[写真] 堀 修

株式会社 東芝
研究開発センター 所長
堀 修
- Osamu Hori -

 東芝の研究開発センターは、東芝のカンパニーやグループ企業が展開する事業全体において基礎となる技術を研究開発しています。カンパニーやグループ各社の研究開発部門が短期的な目標を設定しているのに対し、私たちは中長期的な取り組みを行っています。

 メディアインテリジェンスの技術についても、1960年代から長期的な視点で研究開発を続けてきました。これまでは限定的な分野での応用にとどまっていましたが、ここ数年で大きなブレイクスルーがありました。それをもたらしたのが、ディープラーニングという最先端の機械学習手法の登場です。私たちは長年培ってきた技術やノウハウを生かしつつ、ディープラーニングの活用により、音声認識や音声合成、画像認識などの分野で世界トップクラスの精度と性能を実現しています。

ビジネス用途での正確さを容易なカスタマイズで実現

 東芝デジタルソリューションズ株式会社が提供するクラウドサービス「RECAIUS」には、その成果が盛り込まれています。私たちもRECAIUSの開発支援を行いました。例えば、当初の音声認識エンジンは、デバイスに組み込むことを想定し、コンパクトな設計を重視していました。しかしRECAIUSはクラウドサービスなので、多数のユーザーが多様な用途に同時に利用します。このため、認識エンジンが参照する辞書の語彙(ごい)数を増やしたい、処理性能を向上させたいといった事業部門からの要望に応えて、サービスの実現につなげました。

 音声認識技術を使ったサービスを展開しているグローバルプレイヤーの多くは汎用的な音声認識エンジンを目指していますが、東芝の方向性は異なります。話し言葉や業界で固有な用語などにも対応し、コールセンターなど、より正確さが求められるビジネスシーンでの活用を目指しています。そこでカギを握るのがカスタマイズの容易さです。

 東芝のメディアインテリジェンス技術は、基本的な性能はもちろん、短期かつ低コストでカスタマイズできる辞書などにも強みがあります。

 私たちは、東芝デジタルソリューションズ株式会社や東芝グループの各事業部門、その他研究開発部門と連携して、お客さまのニーズや市場環境を捉えつつ、東芝の強みとなる技術や将来の事業を支える研究にさらに磨きをかけていきたいと考えています。

お問い合わせ
東芝デジタルソリューションズ株式会社
電子メール
e-mail:INS-info@ml.toshiba.co.jp
FAX
044-548-9522
所在地
〒212-8585 神奈川県川崎市幸区堀川町72番地34
INDEX

音声・映像活用クラウドサービス RECAIUS(リカイアス)

このページのトップへ