最新の音声合成技術関連まとめ - VR中心、雑記ブログ

なんかここにきて、音声合成がにわかに盛り上がっているようなので、適当にまとめ。私が知っている限りなので、もっと色々とあると思いますが。とりあえず。

japanese.engadget.com

www.youtube.com

AdobeのイベントであるAdobe Max内の、現在開発途中の技術を紹介するプレゼンであるSNEAKSで発表された。

貼り付けた動画の通り、人間の発話した文章を「フォトショ」する機能。「家に帰って犬と妻にキスした」を「家に帰って妻と妻にキスした」とか、「家に帰って犬に三度キスした」とかに文字を変えるだけで自動的に音声も変わる技術。

20分ほどのサンプルがあれば、あとは自由に編集ができるようになる。言っていないことも、言ったように編集できる。

もちろん、これは悪用しようと思えばできるだろうから、そのあたりをどうするのかが問題になるだろう。とはいえ、現在でもPhotoshopを使えば「実際にはない写真」を作ることはできるわけで、つまり「政治家の他国の大物との密会の写真」とかを作ることはできる。でも、Photoshopは問題にはなっていない。それは、Photoshopで加工すると、相当上手くても違和感が出ることや、素人にはわからなくても同業者にはわかってしまうことや、あるいはそもそも写真は加工できるということが常識になっているため、写真のみという情報に信憑性がないからだ。VoCoがもしも普通に利用できるようになったら、このあたりのことはVoCoにも適用されるようになるのではないかと思う。

多言語対応も比較的簡単らしい。

Amazon Polly

Amazon Polly – 文章から音声へ、47の声と24の言語 | Amazon Web Services ブログ

www.youtube.com

Amazonの音声合成サービス。かなり自然な音声読み上げシステムを利用することができる。上の動画を聴いてもらえればわかるだろうけれども、母語以外は、あんまり違和感を感じずに聴くことができるかもしれない。とはいえ、日本語音声の部分（2:45から）を聴くと若干微妙な気持ちにはなるが。実際にニュースの読み上げなどに使用している動画を見ると、文章の意味を理解していないので、これよりももっと違和感は大きくなる。まあ、もちろん、今までのものよりはずっと良いだろう。

Google WaveNet

deepmind.com

これには衝撃を受けた。

Googleが作った音声合成技術で英文を読ませるとこんな感じ。

https://storage.googleapis.com/deepmind-media/pixie/us-english/wavenet-2.wav

音声合成技術としてはAmazon Pollyとそんなに変わらないかもしれないが、「Knowing What to Say」の節のところがすごい。

https://storage.googleapis.com/deepmind-media/pixie/knowing-what-to-say/first-list/speaker-1.wav

https://storage.googleapis.com/deepmind-media/pixie/knowing-what-to-say/first-list/speaker-6.wav

ディープラーニングで生成した、「言語っぽい何か」がこれ。言語っぽくもありながら、どこの言語でもないらしく、さらには勝手に判断してつばを飲み込む音とか服がこすれる音？とかも作り出している。これを現実に存在する言語でやられたら、正直実際の音声と聞き分ける自信がない。特に外国語だったら。