Japan

研究開発センター

学生の皆様へ

研究者紹介

第一線で活躍している研究者と研究をご紹介

“言語の最小単位を聴き分ける技術” 音声認識技術 藤村浩司 / 知識メディア部門  2005年入社 メディア科学専攻

研究の内容:音の聴こえ方、成り立ちを探求

音声認識という大きな研究分野のなかで、主に、音響処理、音素をより正確に識別する手法を研究しています。たとえば日本語の「さ」はローマ字では「sa」と記述されます。「さ」という文字を発音すると、sの音とaの音が聞こえるという意味です。このsやaのような、我々が通常聞き分けられる最小の音の単位を音素と呼びます。私が作っているのは、この音は「さ」ですか「た」ですかという問いに対し、音に含まれる音素が「s」か「t」かを識別するモデルです。音声認識の多くの研究者は、音素を最小単位にした認識アルゴリズムを使っているので、音素の正確な識別ができると音声認識の性能が向上します。たとえば銀閣寺と金閣寺は、最初の1文字しか違わない。そういう言葉を識別するために、音素の正確な認識が必要なのです。
通常は、音素ごとにどんな特徴があるかを定義して認識モデルを作ります。私は、個々の音素の特徴だけではなく、この音がこの音素かそうでないのかを判断する「境界面」のモデルも作っています。専門用語でいうと、音の生成モデルに識別モデルを加えて認識性能を向上させています。

音声認識の仕組み(イメージ)の図

会社について:技術の行き先を意識して取り組む

大学時代は、自動車に搭載する音声認識技術を研究していました。車内の雑音の中でも正確に認識する音声認識を目指していました。その頃は、認識性能を上げるのが一番の目標で、処理スピードは考えなくてもよかった。研究の進捗に関しても、マイペースで、今思えば呑気だったと思います。
入社当時は、製品開発に関わっていました。入社前の研究と内容は近いのですが、納期に対する意識は変わりました。製品化まで工程ががっちり決まっていて、私の担当部分の処理速度やリリースの日程も決められていました。大変な思いをしましたが、リリースできる喜びは学生の頃には味わえないものでした。
現在、関わっている基礎研究は、製品開発よりは長い期間をかけて性能をあげることができます。私の技術は、音声認識の基本的なアルゴリズムに組み込まれるので、さまざまな音声認識アプリケーションの根本的な性能を向上させることができます。ただし、どんなに性能がよくても、一発話を理解するのに一日かかるようなアルゴリズムでは意味がないので、応用されるマシンのパワーも意識しながら研究しています。

毎日の生活:マシンに優しく話しかけてしまう

プログラミングと並行して、音声の収録が音声認識研究者の重要な仕事です。認識モデルを作るときには学習するための音声が必要です。また、性能を評価する場合も、評価のための音声を収録して性能を調べます。自分の声で試して認識できても、お客様に使ってもらうと思っていたほどの認識性能が出ないことがあるので、老若男女、数多くのサンプルを集めて評価します。自分専用だったら認識率100%に近い音声認識エンジンは作れます。どうやって話せば機械が認識できるか知っているからです。開発者は、認識しにくい喋り方をしろと言われても出来ません。機械に対して優しくなってしまいますね。最終的には、どんな人でも、どんな喋り方をしても認識する音声認識エンジンを開発したいと思っています。
それにしても人間の耳はすごい。データに直せばただの1次元の波形なのに、その中のいろいろな意味を聴き取れます。画像は基本的に2次元なので音声より情報が多いのですが、人間は、音声の1次元の波形の中でコミュニケーションをしています。それが人間の脳と耳のすごさだと感じます。
プライベートでは、服を買うのが好きですね。最近はもっぱらアウトレットで買うことが多いですが。たまに気晴らしに海外デザイナーの服を買うこともあります。最近、子どもが生まれて生活パターンが変わりました。朝は早く起きますし、夜は子どもをお風呂にいれています。子どもは高周波数の音が聴き取れるそうですね。人間の脳の成長の過程をみるのも楽しみです。

藤村浩司の写真 藤村浩司の写真 藤村浩司の写真 藤村浩司の写真

学生の皆さんに一言

学生の皆さんに一言!『チャンスには果敢に突っ込んでいって欲しい。』

自分からやりたいと思うことや、一人で出来ることには限界があるので、他人から「やりませんか」と問われたらチャンスです。まずはYESと言って、いろいろなことにチャレンジして欲しいですね。外国語にも苦手意識を持たないで欲しい。最初は喋れなくても、ノーガードでとにかく突っ込んでいってください。大切なのは、最初から「これは私には関係ない」と線引きをしないことだと思います。

  • 杜塚 芙美:ecoチップ™
  • 神田 充:スマートグリッド向け通信セキュリティ技術
  • 藤村 浩司:音声認識技術
  • 齊藤 佳奈子:4k2k高画質化技術
  • 保中 志元:HDDヘッドの制御技術