言葉を調べるには、言葉が実際にどのように使われているかを生のデータで調べるのが一番です。
現在、規模が大きく自由に入手可能な言語データとしてはWEBがありますが、このデータを収集、整理、 検索することは規模の問題から容易ではありません。しかし、我々はそれらの問題を克服し、 約2000万ページのWEBページにある約100億文字の言語データを対象にしたKWICシステムを開発しました。 独自に開発した40ビット対応のサフィックスアレーによって、任意の文字列を含む文をリアルタイムに検索し抽出することができます。
本サービスでは、ユーザーの要求したキーワードのコンテクスト(前後約25文字までの文脈)、またはキーワードの含まれる文を50例までに限って表示します。 また、検索対象ドキュメントは我々が収集したものの約5分の1を使っています。これ以上の機能は一般的な公開では実現する予定はありません。 我々は、研究や教育の目的をきちんと把握し、適切と思える方とは共同研究などの形式を取り、 我々の持つデータを有効に活用していきたいと考えています。質問ご要望などがありましたら、 以下にあるメイルアドレスに質問いただければ幸いです。
本サービスは、研究教育目的のために公開しております。それ以外の目的での使用は一切禁止します。 違反された方がおりますと、サービスの停止など善良なユーザーにとって大きな迷惑となることがありますので、御注意ください。 どのような使用がされているかを管理するために、全てのアクセスは記録させていただいております。 御了承ください。
また、このシステムは多くの方が使っております。計算機の資源も限られておりますので、同じ単語での無意味な検索の繰り返し、 プログラムによる自動アクセスなどは御遠慮ください。 特定のメイルアドレスや特定の計算機(IPアドレス)からのアクセスを禁止させていただく可能性もあります。
本システムは、2006年2月24日に更新されました。 どのようなキーワードに対しても非常に高速に結果を出せるようになりました。 ただし、対象としているデータの量を小さくしましたので、 それ以前のヒット数との比較はできません。 あらかじめご了承願います。