Googleとカリフォルニア大学バークレー校が最新の人工音声生成モデルを発表
Googleとカリフォルニア大学バークレー校の研究者が、新しい人工音声生成モデルを論文として発表したらしい。
最近の人工音声については以下のエントリでまとめた。
これの一番下にあるWaveNetなどを発展させたものらしい。
で、実際にどんな感じなのかというと、こんな感じ。
Audio samples from "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions"
上のページで聴くことが出来るのだけど、もはや人間と見分け(聞き分け?)ができない。最後に人間が発声しているのと、このモデルが発声しているのを並べているのだけど、本当にどっちがどっちなのかわからない。
一応、外国語であるから、日本語ならばある程度違和感とかもわかるのかもしれない、とも思うのだけど、でも正直これ英語の参考書とかについてくるネイティブが発音しているCDの中身がこのモデルと入れ替わっていても俺はまったく気付かないと思う。まあまだ問題はあるようなので、「今すぐ参考として100%使える!」というわけじゃないのだろうけれども、いずれGoogle翻訳の発声が超リアルになる未来は近いのではないかと思う。
(とはいえ、大分音質下げているようだからそれが上がるとどうなるのかはちょっと気になる。)