Windowsの音声合成エンジンの比較
投稿者:マーチン 2016年6月5日
カテゴリ:障碍者全般::音声合成
カテゴリ:障碍者全般::音声合成
Windows で使用できる音声合成エンジンで、音質と読み間違い率を比較しました。Windows10になってから、ストアアプリで使える Microsoft Ayumi Mobile と Microsoft Ichiro Mobile が追加されたので、その実力を確認しようというのが最初の動機です。ついでに、iOS の音声エンジンとの比較もしました。
2016/06/05 Vocalizer Kyoko と CereVoice Yuki を追加しました。
●比較方法
以下の23個の単語を、いろんな音声合成エンジンに読ませて、正しく読めるかを調べました。単語はランダムに抽出したのではなく、Microsoft Speech Platform のHARUKA で読めないものが、他の音声合成エンジンで読めるのかというスタンスで行ったので、結果的に HARUKAさんには不利になってしまいました。
お金、右端、最小値、大文字、小文字、高齢者、無変換、自動的、公平、火山、月末、既読、空行、予定日、化粧品、連絡帳、補助金、宅配便、管理人、青色申告、windows、text、delete
音声のファイル化には、Microsoft Speech Platform が使える TextToWav と、Open JTalk が使える テキストーク を使用させてもらいました。
お金、右端、最小値、大文字、小文字、高齢者、無変換、自動的、公平、火山、月末、既読、空行、予定日、化粧品、連絡帳、補助金、宅配便、管理人、青色申告、windows、text、delete
音声のファイル化には、Microsoft Speech Platform が使える TextToWav と、Open JTalk が使える テキストーク を使用させてもらいました。
●試した音声エンジン
(1)Microsoft Haruka Platform
種別:Microsoft Speech Platform Ver.11
動作環境:Windows Vista / 7, Windows Server 2003 / 2008
関連記事:【まほろば】無料の音声合成エンジン 「Microsoft Speech Platform 11」
動作環境:Windows Vista / 7, Windows Server 2003 / 2008
関連記事:【まほろば】無料の音声合成エンジン 「Microsoft Speech Platform 11」
(2)Microsoft Haruka Desktop
種別:SAPI5 (Speech Application Programming Interface 5)
動作環境:Windows 10 / 8 (OSに標準搭載、デスクトップアプリ用)
関連記事:【まほろば】SAPI5 対応の日本語音声合成エンジンのインストール
動作環境:Windows 10 / 8 (OSに標準搭載、デスクトップアプリ用)
関連記事:【まほろば】SAPI5 対応の日本語音声合成エンジンのインストール
(3)Microsoft Ayumi Mobile
動作環境:Windows 10 / 8、Windows Phone (OSに標準搭載、ストアアプリ用)
従来の .NET Framework 環境ではなく、UWP (Universal Windows Platform)環境で使えるエンジン。
従来の .NET Framework 環境ではなく、UWP (Universal Windows Platform)環境で使えるエンジン。
(4)ドキュメントトーカ けいこ
種別:SAPI5 (Speech Application Programming Interface 5)
動作環境:Windows 10 / 8 / 7 / Vista / XP
関連サイト:ドキュメントトーカ Plus
日本語音声合成エンジンのご提供について で、障碍者向けに無料提供されたエンジン。
動作環境:Windows 10 / 8 / 7 / Vista / XP
関連サイト:ドキュメントトーカ Plus
日本語音声合成エンジンのご提供について で、障碍者向けに無料提供されたエンジン。
(5)Nuance Vocalizer (ニュアンス ボカライザー) Kyoko
(6)CereVoice Yuki (セレボイス ユキ)
(7)Open JTalk mei
種別:Open JTalk
動作環境:Windows 10 / 8 / 7 / Vista
但し、対応しているソフトが必要です(NVDA、テキストーク)
関連記事:【まほろば】Open JTalk の音響モデルを試す
動作環境:Windows 10 / 8 / 7 / Vista
但し、対応しているソフトが必要です(NVDA、テキストーク)
関連記事:【まほろば】Open JTalk の音響モデルを試す
(8)番外編:iOS
動作環境:iPhone iPad
再生方法:「メモ」で文字列を入力し、すべて選択して [読み上げ] を実行
再生方法:「メモ」で文字列を入力し、すべて選択して [読み上げ] を実行
●比較結果
音声エンジンを比較してこんなことが分かりました。
- 「Haruka Desktop」 と 「Ayumi Mobile」 の読み上げ精度はほぼ同じ。
- 「Haruka Desktop」 は 「Haruka Platform」 から改善されているものの、スクリーンリーダーとして使うにはまだ不十分と感じる。
- 「Haruka Desktop」 の方が 「Ayumi Mobile」 よりも、なめらかに聞こえる。
- 「ドキュメントトーカ けいこ」と 「JTalk mei」 は、読み上げ精度に問題はないが、音質があまり良くない。
- iOS の音声エンジンは、読み上げ精度に問題はなく、音質も許されるレベルだと思う。
- 独断で音質のよい順位は、 HARUKA > Ayumi≒iOS > けいこ≒mei
- NVDA や TextToWav 等のソフトには、辞書登録できる機能があるので、読めない単語を登録すれば少しは改善できるが、全ては対応しきれない。
●比較したデータの詳細
スピーカーのアイコンをクリックすると、サンプル音声を再生できます。
●余談
Visual Studio 2015 をインストールして、Microsoft Ayumi Mobile と Microsoft Ichiro Mobile が使える読み上げアプリを自作してみました(公開はしません)。Microsoftは、UWP環境を今後の主流にしたいだろうけど、思うように普及するのだろうか。