東芝トップページ 本文へジャンプ
お問い合わせ
サイトマップ研究開発センターサイト内検索 検索機能の使い方
企業情報製品・サービス情報 English
東芝トップページ > 企業情報 > 研究開発・技術 > 研究開発センター >  研究開発 >  最新技術情報(2006年) >  オントロジーを活用したユビキタス環境における情報検索技術

研究開発センター


最新技術情報

 

オントロジーを活用したユビキタス環境における情報検索技術
−ユビdeコミミハサンダー−

2006年1月 ]

はじめに

 ユビキタスコンピューティング環境では,誰でも簡単にネットの情報を現実の世界と結び付けて利用できることが求められます。リアル連携とも呼ばれるこうしたニーズは,例えばユーザが映画館にいれば映画の情報を,ドライブ中であれば周辺の名所を提示するなどが典型的な例です。
  従来のデスクトップコンピューティング環境では,広い画面と使い易いインターフェース,そして高速な通信回線があるため,情報検索システムはユーザに対して一度にたくさんの情報を出すことができ,ユーザも何度も試すことができました。いまや検索エンジンが出力する100件のリストの中を何度もクリックして所望の情報を探し出すことに抵抗を感じる人も少ないと思います。
  しかし,ユビキタス(現時点ではまだモバイル)環境の代表端末である携帯電話では,画面は狭く,操作は限られ,回線もまだまだ細いので簡単にネットの情報を利用するためには,操作をより自動化し,必要な情報のみをユーザに提示しなければなりません。そこで,メタデータとオントロジーを活用し意味情報(セマンティクス)に基づいて必要な情報やサービスのみを抽出し,ユーザに提示する技術が,ユビキタス環境においてこそ必要とされると考えられます。当センターでは,以前よりオントロジーの整理に取り組んでおり,現在,約10万概念を有する日本語オントロジーと,日本語を含むオントロジーを高速に検索し,操作するためのライブラリの開発,を進めています。ここでは,これらオントロジー技術をユビキタス環境における情報検索技術に活用した事例として,ユビdeコミミハサンダーと呼ぶシステムを紹介します。

ユビdeコミミハサンダーとは

 ユビdeコミミハサンダーとは,携帯電話のカメラで商品のバーコードをスキャンすると,インターネットから商品のメタデータを取得し,関連するブログ*1を収集し,その商品の口コミ情報をリアルタイムでユーザに提示するものです。
  例えば,ユーザがある本のバーコードをピッとスキャンすると,JANまたはISBNのバーコードから,本のタイトルや出版社,著者といった情報を取得し,関連するブログを収集します。次に,オントロジーを参照しながらブログの中身を解析し,ユーザの評判情報を提示します。(ポジティブ・ネガティブ判定機能)同時に,他の関連商品で話題となっているものを提示します。(ホットトピック抽出機能)そして,最後に有用と思われるブログをいくつか表示します。(ソート&フィルタリング機能)
  ユビdeコミミハサンダーのユースケースを図1に示します。

図1 ユビdeコミミハサンダーのユースケース

  ユビdeコミミハサンダーの出力例を図2に示します。
図2 ユビdeコミミハサンダーの出力例

  ユビdeコミミハサンダーのシステム構成図を図3に示します。
図3 ユビdeコミミハサンダーのシステム構成
  次に,個々の技術について簡単に説明します。

ポジティブ・ネガティブ判定機能

 従来よりテキスト要約技術の1つとして,ポジティブ・ネガティブ(p/n)判定と呼ばれる技術が存在します。代表的なものとしては文章を形態素解析した上で,構文解析を行い,品詞間の係り受け関係を見ながら,特定の対象語に関して<対象語,属性,属性値>の組を取り出すといった手法があります。*2また,入力となる適用対象文をオークションの評価コメントにしたり*3、出力結果をレーダーチャートとして表現するなど,入力文書の拡張や出力結果の工夫などの応用も見られます。今回のp/n判定手法はこうした研究をベースとしつつ,ブログに適用するに当たって以下の2点の改良を加えていることが特徴です。
 1つ目は,ブログのメタデータRSS1.0(RDF Site Summary)*4から得られるブログ記事の相関関係を利用し,各記事の重要さを重み付けし,評価をバイアスしています。
 従来,多くの研究では対象文が用意された文書集合(コーパス)である場合が多く,ユーザがWebをブラウズしながらさまざまな意見に出会う状況を想定していないことが多いのですが、実際には、例えばブログにおける意見において,多くのトラックバックによって賛意が付けられているものと,1つもトラックバックがついていないものとではユーザの心理に与える影響は異なると思います。Web検索の延長として相互のリンク関係を利用しているものは存在 *5しますが、ブログのメタデータであるRSSの情報を積極的に活用し,著者の同一性や作成日時などの情報を活用しているものはありません。実際には,多くのリンクが付けられているとしてもそれが1年前のものなのか,今日付けられたものなのかではユーザに与える影響は異なると思います。そこで,本研究では対象文をブログに限定することで,そこに付与されたRSS からブログ間の相関関係を取得し,活用しています。具体的には,以下のような相関関係を参照しています。

  1. 単なるコメントよりも、他サイトからのトラックバックを重視する。(出自を明らかにしている)
  2. 意見をサポートする著者の異なる意見(トラックバックまたはコメント)の量に応じて重みをつける。(多くの人に支持されている)
  3. 自サイトで他の関連商品についても意見を述べている著者の意見は重視する。同一の著者が複数のコンテンツに対して意見をつけている場合は重視する。(エキスパート,同一観点からの比較が期待できる)
  4. トラックバックやコメントの流れにおいて反対の中の反対よりも賛成の中の反対を重視する。同様に,賛成の中の賛成よりも反対の中の賛成を重視。(勇気ある発言)
  5. 元のコンテンツが古いにもかかわらず、長く意見がついている意見は重視する。(息が長い)
  6. 初めの意見から最新の意見までの数を時間で割った値が大きい場合はそれぞれの意見に重みをつける、(加速度が大きい)
  7. 意見数が平均的に多い著者の意見は重視する。(オピニオンリーダー)
  8. 意見のついていないコンテンツは重みを下げる。(広告などを排除)
  9. 意見ついていないコンテンツの多い著者の意見は下げる。(広告業者などを排除)
  10. 元コンテンツの著者と意見をつけた者の二人が相互に意見交換をしている場合は重みを増す。(議論が深まっている)
  11. 元コンテンツにトラックバックをした著者Aの意見に多くのトラックバックがついている場合は,著者Aの意見を重視する。(議論の中心にいる)
  12. 最後に,ある調査*6によれば,ブログでは7割が良いことを述べる傾向が見られる。そこで、反対にネガティブな意見があれば,著者の強い意志を考慮して評価をバイアスする。

 2つ目は,先の日本語オントロジーのis-a階層を参照して,属性値の表現に強弱を適用し,単にポジティブ表現を一点と数えるのではなく,程度を付けています。むろん,同じ属性値でも属性によって反転する表現は考慮されます。例えば,バッテリーの寿命がはやいと、CPUの計算速度がはやいのとでは、意味が反転されます。また,part-of関係を参照することで,直接的にポジティブまたはネガティブではない表現が用いられている場合でも,p/n判定に使うことができます。なお,instance-ofの関係を参照することで、同一概念の複数表現は吸収されます。

 本システムでは,特定の商品に関するブログを最大100件収集し,上記のp/n判定を行います。これにより,単に文書集合のp/nを正確に判定するだけでなく、ユーザがWebをブラウズしながら得る印象値により近いp/n判定結果を得ることができると考えています。
 オントロジーの簡単な例を図4に示します。

図4 日本語オントロジーと商品オントロジー

  ブログの相関関係を図示したものを図5に示します。
図5 メタデータRSSから得られるブログの相関関係

ホットトピック抽出機能

 近年,商品に関するニュースリリースをいち早く取り上げたり,購買時の比較検討,使用経験などをユーザ独自の視点でブログに公開するユーザが急増しています。一方,ユーザは商品購入の際に,他人のブログに書かれたその商品に関する情報を収集し、比較検討を行って購買を決定していることが少なくありません。さらに、その比較検討した結果をユーザがブログで公開することにより,口コミ情報が増えてきています。
  ホットトピック抽出機能とは,ユーザが関心のある商品名を入力して,その商品について話題になっている、すなわちホットトピックな類似商品を発見するものです。しかし,ブログに書かれる情報は千差万別であり、文法に従った完全な文章では書かれていないため、素朴にブログエントリを収集してホットトピックな語彙を統計処理や頻度学習を行うだけでは、有効な商品情報の提示は期待できません。
  そこで,多くのブログサイトが備えています。トラックバックリンクと呼ばれる、ブログエントリに対してリンクを張ったことを、リンク参照先へ通知する機能に注目しました。トラックバックを張ることにより,ユーザはリンク参照先のエントリの内容に対して、リンク参照元のエントリで自分の意見を述べている場合が多いです。このようなブログエントリ間の関係はブログスレッドと呼ばれ、多くの場合特定の話題について議論されます。つまり,トラックバックが張られていないエントリよりも、トラックバックが張られているエントリのほうが,ブログユーザの関心度が高いと考えられます。したがって,ブログでホットトピックな商品情報を発見するには,トラックバックによるブログエントリ間の関係を考慮したアプローチが有効と考えらます。ホットトピック抽出機能は,ブログクローリング機能とホットトピック分析機能から構成されます。ブログクローリング機能は、インターネット上のブログ検索エンジンに対して商品名を入力し,その商品に関するブログを獲得するものです。商品名は,ユビdeコミミハサンダーが持つ商品オントロジー上にエントリされている商品インスタンスを利用します。
  ホットトピック分析機能は、トラックバックリンクによるブログ構造を分析して、各商品インスタンスのホットトピック度を計算します。ホットトピック度の計算では、ブログの以下の特徴に重みをおきます。

  1. 1つの商品について、1人のブログユーザが何度もエントリで話題にしている場合、何度も話題にするということは、その商品について強い関心を持っていることを意味すると考え、1度しか話題にしない場合と比較して、その商品のホットトピック度は高いと判断する。
  2. ある商品に関して述べているエントリに、多数のトラックバックリンクやコメントが付与されている場合、そのエントリは話題性が高いと考え、その商品のホットトピック度は高いと判断する。
  3. 日頃からトラックバックリンクやコメントを多く受けるブログユーザは、ブログの世界でオピニオンリーダー的な立場にある人であると考え、そのブログユーザが述べる商品情報のホットトピック度は高いと判断する。
  4. ブログスレッドが構成されている場合、そのスレッドの先頭エントリで取り上げられている商品情報は重要だと考え、その商品のホットトピック度は高いと判断する。
  5. ブログスレッドが構成されていて,そのスレッドの先頭エントリで取り上げられている商品とは異なる商品が、そのブログスレッド中の他のエントリで話題になっている場合、商品比較について議論されていると考え、両商品のホットトピック度は高いと判断する。特に、スレッドの上位で話題になっている場合は高いと考えられます。

 現在,上で述べたブログの5つの特徴に着目したホットトピック度計算アルゴリズムを実装しています。当然、5つの特徴に対する重み付けのチューニングの良し悪しが、ホットトピック抽出の精度を大きく左右するが、ユビdeコミミハサンダーの実証実験を経て精度に関する評価を行う予定です。

ソート&フィルタリング機能

 集めたブログ記事の中から,2.1節で述べたブログの相関関係を用いて読み応えがあると判断された記事10件をユーザの端末に表示します。例えば、多くのトラックバックを得ているユーザの意見や、明らかなポジティブ意見や強いネガティブ意見で一定の分量があるものなどが挙げられます。反対に,単なる商品の宣伝記事などは除去しています。

関連研究

 当社の別プロジェクト,ユビキタスサービスファインダー*7では、ICタグと家庭内機器のDLNA準拠、ネット上のWebサービスが普及した世界において、ユーザの手元でネットサービスや家庭・オフィス機器を動的に連携させるモデルを提案しています。一方、本システムで、ICタグの代わりにバーコード、サービスの代わりにブログが普及している現在において、携帯をモノにかざすとバーコード情報かblogを検索し、口コミ情報を収集するシステムとなっており、ユビキタス環境におけるセマンティクス活用事例としてより直近にメリット感じられるものとなっています。

今後の予定

 現在、本システムの評価版の開発を完了し,2005年2月より家電量販店,大型書店,ドラッグストアにて実証実験を予定しています。実験では、被験者にユビdeコミミハサンダーをインストールした携帯電話を使って、実際に店舗にて気になる商品を手にとってバーコードをスキャンしてもらい、表示された口コミ情報が商品の購入にあたって役に立ったかどうかや、情報が表示されるまでの待ち時間を評価します。その結果を基に、今後は精度面から適合率と再現率の向上、性能面からは複数同時アクセス時のレスポンス向上などを図っていきます。
  また、ブログの普及と同時にICタグなどによるモノへのメタデータ付与やHDDレコーダなどの普及によるデジタルデータへのメタデータ付けは加速しています。更に、Webサービスは地味だが着実に普及しており,家庭内での{デジタル|白物}家電連携は今後の大きなトレンドと言われています。こうした状況の中で、セマンティクスを利用した付加価値の高いユビキタスソリューションの提供を目指していきます。

参考文献

  1. 総務省 ブログ・SNSの現状分析及び将来予測
  2. Web文書集合からの意見情報抽出と着眼点に基づく要約生成立石健二, 福島俊一, 小林のぞみ, 高橋哲朗, 藤田篤,乾健太郎, 松本裕治
  3. NTM-Agent: Text Mining Agent for Net Auction, Yukitaka Kusumura, Yoshinori Hijikata, Shogo Nishida, IEICE Transactions of Information and Systems, Vol.E87-D, No.6, pp.1386-1396, 2004.
  4. RSS - サイト情報の要約と公開,http://www.kanzaki.com/docs/sw/rss.html
  5. ブログ空間の主要トピック抽出斉藤和己, 木村昌弘, 風間一洋, 佐藤進也人工知能学会研究会資料SIG-KBS-A501-02, pp. 5-10, 2005.
  6. Web広告研究会http://www.itmedia.co.jp/news/articles/0511/28/news070.html
  7. USF Ubiquitous Service Finder - Discovery of Services semantically derived from metadata in Ubiquitous Computing, T. Kawamura, K. Ueno, S. Nagano, T. Hasegawa, A. Ohsuga, Proceedings of 4th International Semantic Web Conference (ISWC 2005), 2005.


東芝トップページ | 個人情報保護方針 | サイトのご利用条件 Copyright