2014年6月14日土曜日

人工音声について





久しぶりにTEDを見ていて、面白いプレゼンを見つけました。
 
アメリカのルーパル・パテルという音声科学者が
いかに人工的な音声に個性を入れようとしたかというもので、
とても興味深かったので、ご紹介します。
 少し専門的ですが、気軽によんでください。
 
まず声紋についてー
私たち一人一人にはそれぞれ声紋があり、それは性別、年齢、
生活習慣や個性まで映し出すと言われるそうです。
 
彼女は、ある集会で声の出ない人が違う機器であっても
同じ人工音声を使用していて、
つまり小さな女の子から大人の男性まで同じ声を
使っていることにショックを受け、
どうしたらそれぞれの人にふさわしい、
その人らしい人工音声を使うことができるかを考え、研究し始めたそうです。
 
プレゼンの中では、声の出る仕組みを「音源」と「フィルター」
(つまり、共鳴と構音)で表していて、
声の出ない人でも「音源」は健在であることがわかったと言います。
それは何に関わるかというと、
ピッチや音量、テンポに関わる「音律」
(紛らわしい言葉ですが、トーンのことだと思われます)
に関する部分のことで、
(つまり喉頭器官に関わるあたりは健全だと解釈できました)
それが個々人で違うなら、
少なくとそれは人工音声に反映されるべきではないか…と。
 
単純でかつ明快、しかし、凄い発想の展開です!
 
実際の行程は、膨大な音声のサンプル集めです。
音声を提供してくれる人にたくさんの文章をよんでもらったようです。
これを見ながら、
昨年、ロンドンであるサイエンスプロジェクトを手伝いをして、
似たような作業をしたのを思い出しました。
そのプロジェクトはこれとは少し違い、
話している時の顔の筋肉も撮影して、喜びや哀しみ、
怒りなどの感情を入れて同じ文書を何度も読むというものでしたが、
データとして、音一つ一つ、またその音(音素)の繋がり方を集積して、
そのデータから必要な言葉や文章を再構築するという点では
同じプロセスのようでした。
 
提供され集積した音声がそのまま再生されるだけでは、
まだ人工音声の範囲内だそうで、
それにどうやってその人の個性を表すか、
話しているようにするかというと、被験者の出せる音声と集積した音声を
混ぜ合わせていくという方法を使っていました。
 
そうすると、人工音声が本当に話しているような声が合成されるのです!
見た後、人工音声と、混ぜ合わせた音声...
何が違うと言ったらいいのか...しばらく考えていました…
声自体は、柔らかくなったのですが、何かもっとこう…
うーん、答えはまだ見つかっていません…
 
VocaliD.org  っていうサイトがあるそうです。
さらに詳しくはそちらでどうぞ。