まほろば

形態素解析辞書 NAIST-jdic と Unidic

投稿者:マーチン  2010年8月22日 
カテゴリ:障碍者全般::音声合成

 GalateaTalk は、形態素解析ツール「ChaSen(茶筌)」を使って、文章を解析して「それ以上分割できない最小の文字列(形態素)」に分割します。その際に使用される辞書を形態素解析辞書といい、ipadic と NAIST-jdic と Unidic などがあります。

●ipadic

 「茶筌」は、奈良先端科学技術大学院大学松本研究室で作成したフリーの形態素解析システムです。利用に関する制限はありませんが、著作権は「奈良先端科学技術大学院大学」にあります。
  ファイルサイズ:23.7MB (ipadic-sjis-2.7.0.zip 解凍後) 
 http://sourceforge.jp/projects/chasen-legacy/releases/ から、chasen-2.4.2-1-ipadic-sjis-2.7.0.EXE をダウンロードできます。

●NAIST-jdic

 NAIST-jdic は、IPAdic の後継です。 IPAdic の固有名詞以外の全エントリをチェック(可能性に基づく品詞の整理)し、表記ゆれ情報を付与し、複合語の構造を付与する作業を行っています。固有名詞については不要な語、新規追加などの整理を随時行っていきます。この作業により IPAdic のライセンスで問題となっていた ICOT 条項を削除し、広告条項無しの BSD ライセンスに変更致しました。

●Unidic

 http://www.tokuteicorpus.jp/dist/
 国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されています。著作権は,伝康晴氏・山田篤氏・小椋秀樹氏・小磯花絵氏・小木曽智信氏が保持します。
 辞書の中に、アクセント情報が含まれるので、自然な読み上げが可能になります。
 再配布することは許可されていませんが、利用許諾条件にしたがい、利用者登録後、無償でダウンロードできます。
 ファイルサイズ:133.1MB (unidic-chasen1312_sjis.zip 解凍後) 

●NAIST-jdic と Unidic の比較

(例文1)市民の皆さんが安心して暮らせる「災害に強いまちづくり」を推進するため、次のとおり総合防災訓練を実施します。
NAIST-jdic NAIST-jdic  unidic unidic

(例文2)小さな鰻屋に,熱気のようなものがみなぎる
NAIST-jdic NAIST-jdic  unidic unidic

(例文3)一週間ばかり,ニューヨークを取材した
NAIST-jdic NAIST-jdic  unidic unidic

(例文4)NAIST-jdic は、IPAdic の後継です。 IPAdic の固有名詞以外の全エントリをチェック(可能性に基づく品詞の整理)し、表記ゆれ情報を付与し、複合語の構造を付与する作業を行っています。
NAIST-jdic NAIST-jdic  unidic unidic



◆関連記事

◆関連サイト