japan

Webページ収集方針

研究開発センターのWebページ収集方針を公開します。研究開発センターでは、自然言語処理技術の研究のために、Webページを収集しています。収集したWebページから、新語や未知語を抽出したり、単語の出現頻度などの統計的な情報を分析し、高精度の機械翻訳や音声合成システムなどの開発に役立てています。Webページの管理者の皆様に、我々の収集目的や方針をご理解いただき、ご協力をお願いするため、収集方針を公開します。ご一読の上、ご質問やご要望があればご連絡くださいますよう、お願いします。

Webページ収集の目的

研究開発センターでは、自然言語処理技術の研究のために、Webページを収集しています。収集したWebページから、新語や未知語を抽出したり、単語の出現頻度などの統計的な情報を分析し、高精度の機械翻訳や音声合成システムなどの開発に役立てています。

収集方針

  • 接続先ホストに過度な負荷をかけません。
    接続先ホストにかける負担を軽減するため、1つのIPアドレス/ホストに対して一定時間の間隔を空けてアクセスします。ただし、複数のホスト名を持つ場合、同一のホストであることを認識できず、連続してアクセスすることがあります。
  • robots.txt の記述内容を解析し、ホスト側で設定したアクセス制限を遵守します。書き方は robots.txtに書くをご参照ください。
  • アクセス停止の申し出があったホストに対してはアクセスしません。
    メールアドレス までご連絡ください。
  • 収集したWebページは厳重に管理します。収集したWebページおよび辞書などのデータは、研究開発センター内のデータベースに登録し、外部からアクセス出来ないよう厳重に管理・保管します。

収集拒否方法

robots.txt あるいは robots metaタグを使って、アクセス制限をかけてください。

robots.txt に書く

貴サイトのwebページ収集を全面的に禁止する場合:サーバーのトップディレクトリ(例:
http://www.toshiba.co.jp/robots.txt)にrobots.txtファイルを設置し、下記のように記述してください。

User-agent:TosCrawler
Disallow:/

貴サイトのwebページ収集間隔を指定する場合:robots.txtファイルにCrawl-Delayの値を秒単位で指定してください。
たとえば、下記のように記述されていれば、30秒以上間隔を空けてwebページを収集します。

User-agent:TosCrawler
Crawl-delay:30.0

robots metaタグ を利用する

貴サイトの任意のwebページの収集を禁止する場合:下記の項目をHTML文書のヘッダに書いて下さい。

<META NAME="robots" CONTENT="nofollow, noindex">

連絡先

ご質問、ご要望は メールアドレス までE-mailでご連絡ください。
ご連絡の際は、貴サイトのホスト名 (別名も含め) とIPアドレスを明記して下さるようお願いします。

2012年6月5日
研究開発センター 知識メディアラボラトリー


  • 「研究開発センター」のトップへ
  • このページのトップへ