形態素解析辞書 NAIST-jdic と Unidic
投稿者:マーチン 2010年8月22日
カテゴリ:障碍者全般::音声合成
カテゴリ:障碍者全般::音声合成
GalateaTalk は、形態素解析ツール「ChaSen(茶筌)」を使って、文章を解析して「それ以上分割できない最小の文字列(形態素)」に分割します。その際に使用される辞書を形態素解析辞書といい、ipadic と NAIST-jdic と Unidic などがあります。
●ipadic
「茶筌」は、奈良先端科学技術大学院大学松本研究室で作成したフリーの形態素解析システムです。利用に関する制限はありませんが、著作権は「奈良先端科学技術大学院大学」にあります。
ファイルサイズ:23.7MB (ipadic-sjis-2.7.0.zip 解凍後)
http://sourceforge.jp/projects/chasen-legacy/releases/ から、chasen-2.4.2-1-ipadic-sjis-2.7.0.EXE をダウンロードできます。
ファイルサイズ:23.7MB (ipadic-sjis-2.7.0.zip 解凍後)
http://sourceforge.jp/projects/chasen-legacy/releases/ から、chasen-2.4.2-1-ipadic-sjis-2.7.0.EXE をダウンロードできます。
●NAIST-jdic
NAIST-jdic は、IPAdic の後継です。 IPAdic の固有名詞以外の全エントリをチェック(可能性に基づく品詞の整理)し、表記ゆれ情報を付与し、複合語の構造を付与する作業を行っています。固有名詞については不要な語、新規追加などの整理を随時行っていきます。この作業により IPAdic のライセンスで問題となっていた ICOT 条項を削除し、広告条項無しの BSD ライセンスに変更致しました。
●Unidic
http://www.tokuteicorpus.jp/dist/
国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されています。著作権は,伝康晴氏・山田篤氏・小椋秀樹氏・小磯花絵氏・小木曽智信氏が保持します。
辞書の中に、アクセント情報が含まれるので、自然な読み上げが可能になります。
再配布することは許可されていませんが、利用許諾条件にしたがい、利用者登録後、無償でダウンロードできます。
ファイルサイズ:133.1MB (unidic-chasen1312_sjis.zip 解凍後)
国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されています。著作権は,伝康晴氏・山田篤氏・小椋秀樹氏・小磯花絵氏・小木曽智信氏が保持します。
辞書の中に、アクセント情報が含まれるので、自然な読み上げが可能になります。
再配布することは許可されていませんが、利用許諾条件にしたがい、利用者登録後、無償でダウンロードできます。
ファイルサイズ:133.1MB (unidic-chasen1312_sjis.zip 解凍後)
●NAIST-jdic と Unidic の比較
(例文1)市民の皆さんが安心して暮らせる「災害に強いまちづくり」を推進するため、次のとおり総合防災訓練を実施します。
(例文2)小さな鰻屋に,熱気のようなものがみなぎる
(例文3)一週間ばかり,ニューヨークを取材した
(例文4)NAIST-jdic は、IPAdic の後継です。 IPAdic の固有名詞以外の全エントリをチェック(可能性に基づく品詞の整理)し、表記ゆれ情報を付与し、複合語の構造を付与する作業を行っています。
(例文2)小さな鰻屋に,熱気のようなものがみなぎる
(例文3)一週間ばかり,ニューヨークを取材した
(例文4)NAIST-jdic は、IPAdic の後継です。 IPAdic の固有名詞以外の全エントリをチェック(可能性に基づく品詞の整理)し、表記ゆれ情報を付与し、複合語の構造を付与する作業を行っています。
◆関連記事
【まほろば】GalateaTalk のサンプルプログラム(C#)
【まほろば】GalateaTalk (ガラテア トーク) のインストール
【まほろば】使ってみようGalateaTalk (総合案内)
【まほろば】GalateaTalk (ガラテア トーク) のインストール
【まほろば】使ってみようGalateaTalk (総合案内)