入手希望、ご質問等は、弊社担当宛(enewlanguagecraft.com)に メイルをお送りください。
(上記の「@」は画像です。注意してご入力ください)


本データは
  • 質問応答、情報抽出、対話、機械翻訳等に必要な名前に関する知識です。
  • Wikipediaの全項目に拡張固有表現をタグ付したデータです。
  • 約2万項目は人手で作成、残りは機械学習でタグ付けをしています。
  • JSON形式で2種類のデータがあります
    • Wikpedia構造化データ:Wikipediaの一部の情報を構造化したデータです。
    • ENE+Wデータ:Wikipediaの各項目に拡張固有表現のタグを振ったデータです
  • 人手チェックを継続するため、ENE+Wデータは有償で公開します。
  • 20160305バージョンのデータは、日本語版Wikipedia(2015年11月23日)を元に作られています。

参考資料
拡張固有表現(バージョン7.1.1)
定義書
言語処理学会第22回年次大会
発表論文
言語処理学会第22回年次大会
発表ポスター



Wikipedia構造化データ(定義)
属性名説明
SID本データにおけるID
wikipedia_IDWikipediaのID
Entry項目名
Clean_entry標準化された項目名
Page_propertyページの種類
Redirect_toリダイレクト先
Redirect_fromリダイレクト元
Link_from_N被リンク数
Link_anchorリンク元のアンカー文字列
Category_infoWikipediaのカテゴリー情報
First_sentence説明文中の最初の文(自動抽出)
Listed_inリストされている一覧ページ

Wikipedia構造化データ(サンプル)
{ "SID": 161224,
"wikipedia_ID": "259974",
"entry": "東京都立新宿高等学校",
"clean_entry": "東京都立新宿高等学校",
"page_property": "Normal",
"redirect_to": "",
“redirect_from”: [“新宿高校”, “新宿高等学校”, “都立新宿高等学校”, “東京都立新宿高校", "東京府立第六中学校"],
"link_from_N": 276,
"link_anchor": [{"count": 1, "anchor": "都立六中"}, {"count": 1, "anchor": "都立新宿高"}, {"count": 11, "anchor": "東京府立第六中学校"}, {"count": 2, "anchor": "新宿高等学校"}, {"count": 16, "anchor": "新宿"}, {"count": 1, "anchor": "東京都立第六高等学校"}, {"count": 4, "anchor": "東京府立六中"}, {"count": 1, "anchor": "旧制東京都立第六中学校"}, {"count": 2, "anchor": "新宿高"}, {"count": 4, "anchor": "府立六中"}, {"count": 8, "anchor": "都立新宿高校"}, {"count": 8, "anchor": "新宿高校"}, {"count": 216, "anchor": "東京都立新宿高等学校"}, {"count": 1, "anchor": "東京都立新宿高校"}],
“category_info”: [“東京都区部の公立高等学校|しんしゆく”, “新宿区の学校|しんしゆくこう”, “学校記事”],
“first_sentence”: “東京都立新宿高等学校(とうきょうとりつ しんじゅくこうとうがっこう)は、東京都新宿区内藤町に所在する都立高等学校。",
“listed_in”: [“旧制中等学校・新制高校のナンバースクール一覧”, “東京都立新宿高等学校の人物一覧", "東京都高等学校一覧", "旧制中等教育学校の一覧 (東京都)"]
}


ENE+Wデータ(定義)
属性名説明
SID本データにおけるID
ENE拡張固有表現
annotation_flagアノテーション情報

ENE+Wデータ(サンプル)
{
"SID": 161224,
"ENE": ["学校名"],
"annotation_flag": "HAND.LC_annotator_201511”
}
{
"SID": 161225,
"ENE": ["美術博物館名"],
"annotation_flag": "AUTO.TOHOKU_201601”
}
{
"SID": 161226,
"ENE": ["CONCEPT"],
"annotation_flag": "AUTO.TOHOKU_201601”
}
{
"SID": 161227,
"ENE": ["地名_その他"],
"annotation_flag": "AUTO.TOHOKU_201601”
}
{
"SID": 161228,
"ENE": ["郡名"],
"annotation_flag": "AUTO.TOHOKU_201601”
}




入手希望、ご質問は、弊社担当宛(enewlanguagecraft.com)に メイルをお送りください。
(上記の「@」は画像です。注意してご入力ください)



ホーム 製品紹介 会社概要 お問い合わせ
日本語Proofreader KWIC on WEB 電脳優子2年生 スペルコレクション
質問応答システム 統合情報アクセスシステム テキストクラスタリング 辞書データ作成