japan

東芝トップページ > 企業情報 > 研究開発・技術 > 研究開発センター > 研究開発ライブラリ > 音声対話の理解をさらに高度化する未知語理解AIの開発について−音声対話システムを使った保守点検・営業報告作成の利便性を高め、業務効率化・働き方改革に貢献−

知能化システム

音声対話の理解をさらに高度化する未知語理解AIの開発について
−音声対話システムを使った保守点検・営業報告作成の利便性を高め、業務効率化・働き方改革に貢献−

2019年09月13日
株式会社東芝

当社は、音声対話システム向けに、ユーザーの発話の中に、システム辞書中に存在しない単語(未知語)が含まれる場合でも、未知語を検出し、キーワードや文脈から未知語の属性を推定し学習していく未知語理解AIを開発しました。本技術を用い、公開データベース(注1)を使った検証を行ったところ、世界トップの0.883の推定精度を達成しました。
当社は本技術を9月15〜19日にオーストリア グラーツで開催される音声言語に関する国際会議INTERSPEECH 2019で発表します。

近年、労働力不足が課題となっており、2023年からは労働力人口の減少が加速すると言われています。労働力不足を補うため、AI技術による業務代行や自動化が推進されており、その中でも音声対話システムを利用した業務支援サポートの要望が高まっています。例えば、保守点検や営業活動などの現場では、日報や報告書の作成が担当者の負担となるケースがありますが、日報や報告書の作成を音声対話システムで行えば、人手による業務の低減が期待できます。
しかし、現場では業界特有の専門用語や表現、または略語が使われることが多く、これらすべてをあらかじめシステムに学習させることは困難です。未知語のまま残ると現在の音声対話システムでは「わかりません」と答えて対話が終わってしまうか、別の単語と間違えて、対話が破たんしてしまいます。

そこで当社は、未知のキーワードを正確に抜き出し、その意味を理解することによって、ユーザーに既知のキーワードに近い発話を促すことや、未知のキーワードをその場で学習する未知語理解AIを開発しました。
例えば、分かりやすい事例を用いるとユーザーが「ふわっとリング(注2)が食べたい」と言った場合には、未知語である「ふわっとリング」というキーワードを抽出し、「〜が食べたい」という文脈から、それが食べ物であるという属性に分類して未知語を理解し、その結果を踏まえてユーザーへ応答することが可能です(図1)。

人間は、「ふわっとリングが食べたい」と聞いた時に、「ふわっとリング」が何なのか分からなくても、「〜が食べたい」という文脈からその属性が食べ物であることを予測することができます。一方、「和食がいい」と言ったときには「和食」というキーワードから属性が食べ物であると判断できます。今回開発した未知語理解AIは、こうした人間の考え方に基づき、発話された文章をキーワード部分と文脈部分に意図的に切り分けて処理することによって、既知、未知のキーワードに対して属性を判断し、高精度な発話理解を実現できるようになりました。

従来、属性の判断にはキーワードを重視する手法が用いられていました。「和食が食べたい」という文章の場合、既知のキーワードである「和食」をシステムが認識し、属性が食べ物であることが分かります。しかし、「ふわっとリングが食べたい」という文章の場合、未知のキーワードである「ふわっとリング」をシステムが認識することができず、属性を判別できずに終わるか、キーワードを「リング」と認識し、属性がアクセサリーであると誤った判断をする可能性があります。

そこで当社は、未知のキーワードでも検出可能とし、その属性を判断する手法を開発しました。まず、学習時に文章のキーワード部分をランダムにさまざまな言葉に置き換え、キーワード位置を検出するニューラルネットワークを学習することによって、文脈を重視したモデルを学習し、未知語であってもその部分がキーワードであることを検出します(図2)。
検出したキーワードの属性は、「キーワードの特徴を抽出」「文脈の特徴を抽出」「その特徴を統合して属性を推定」する3つのニューラルネットワークを用いて推定します。キーワード検出の結果を使って発話された文章をキーワード部分と文脈部分に切り分け、キーワードの特徴と、文脈の特徴を抽出します。そして、これらを統合するニューラルネットワークで、どちらの特徴を重視するかといった重みを計算し属性を判定します。「ふわっとリングが食べたい」という文章の場合は、「〜が食べたい」という文脈が重視され、「ふわっとリング」の属性が食べ物であると判別されます。

本技術をレストラン検索の音声対話公開データベースを使って、キーワードの検出とその属性推定精度を評価指標F値(注3)で評価したところ、既知キーワードのみで構成される文章の推定精度を維持したまま、未知語を含む文章に対する推定精度が既存手法の0.764から実用レベルの0.883に大きく向上し、未知語を理解する音声対話システム実現に向けて大きく前進しました。

当社は今後、本技術を、当社のコミュニケーションAI「RECAIUS™(リカイアス)」が提供する各種の音声対話サービスに適用していくことを検討していきます。

図1:未知のキーワードに対する音声対話システム

図2:未知キーワードの検出方法

図3:本技術を活用した保守点検の対話例

(注1)英語のレストラン検索音声対話の性能を評価する公開データベース Dialog State Tracking Challenge (DSTC) 2,3

(注2)架空のドーナツの名前

(注3)キーワードの検出と推定属性の精度を測る指標。0から1の値をとり、1に近いほど高精度になる。


  • 「研究開発センター」のトップへ
  • このページのトップへ