まほろば

オープンソース音声合成エンジン「Open JTalk 1.06」

投稿者:マーチン  2013年1月4日 
カテゴリ:障碍者全般::音声合成

 「Open JTalk」は、名古屋工業大学の徳田・李研究室で開発されているオープンソースの日本語音声合成エンジンで、2012/12/25 にバージョン 1.06がリリースされました。
 takayanの雑記帳:Open JTalk を Windows でビルドするバッチファイル
の記事を頼りに、Windows上でコンパイルをし、実行ファイルを作成しました。音声は new HTS voice format に変更され、パラメータの指定方法も変わりました。

●音声サンプル

【サンプル文章】

市民の皆さんが安心して暮らせる「災害に強いまちづくり」を推進するため、次のとおり総合防災訓練を実施します。

Ver. 1.06  男性:m001 再生
Ver. 1.05  男性:m001 (48kHz) 再生   女性:mei (48kHz)再生

●更新情報

・open_jtalk (ファイル NEWS より)
Version 1.06:
* support new HTS voice format.
* add some accent phrasing rules.
* add some unvoice rules.
* set limits for some contexts in the label generator.
* update dictionary.
* update MeCab to version 0.994.
* fix some bugs.
Version 1.05:
* modify pronunciation rule after a decimal point.
* modify accent type detection.
* add new moras and new words.
* fix some bugs.

・hts_engine_API (ファイル NEWS より)
Version 1.07:
* support new HTS voice format.
* add LSP postfilter.
* change volume unit to DB.
* add function to get generated speech.
* bug fixes.
Version 1.06:
* modify state duration calculation algorithm.
* change many function from void to boolean.
* change source format.
* bug fixes.

●手順

(1)「Visual C++ 2010 Express」をインストールする。
(2)「7-zip」をインストールする。
(3)takayanの雑記帳 から、以下のファイルをダウンロードする。
openjtalk_buildbatch-003.zip
(4)これを展開して、そのフォルダに、以下の3つのアーカイブファイルを入れる。
(5)http://sourceforge.jp/projects/sfnet_open-jtalk/releases/から、
open_jtalk-1.06.tar.gz
hts_voice_nitech_jp_atr503_m001-1.05.tar.gz
 http://sourceforge.jp/projects/sfnet_hts-engine/releases/ から、
hts_engine_API-1.07.tar.gz
(6)prepare.bat を実行する。

(7)make.bat を実行する。

(8)以下のバッチファイルを作成して、実行すると、音声読み上げがされる。
◆m001_106.bat [ダウンロード]


●オプション詳細

オプション説明省略時範囲
-x dirdictionary directory
-m htsvoiceHTS voice files
-ow stringfilename of output wav audio (generated speech)
-ot stringfilename of output trace information
-s intsampling frequencyauto[ 1--]
-p intframe period (point)auto[ 1--]
-a floatall-pass constantauto[ 0.0--1.0]
-b floatpostfiltering coefficient 0.0[ 0.0--1.0]
-r floatspeech speed rate 1.0[ 0.0-- ]
-fm floatadditional half-tone 0.0[ -- ]
-u floatvoiced/unvoiced threshold 0.5[ 0.0--1.0]
-jm floatweight of GV for spectrum 1.0[ 0.0-- ]
-jf floatweight of GV for Log F0 1.0[ 0.0-- ]
-z intaudio buffer size 0[ 0-- ]

◆関連記事

◆関連サイト