rinna

AIチャットボットで「多話者多言語音声合成」を実現

プレスリリース

rinna株式会社は、当社が開発を進めているAIチャットボットにおいて「多話者多言語音声合成」を実現しました。本技術を使って合成したAIの音声データが、映画『劇場版 仮面ライダーゼロワン REAL×TIME』(東映配給、12月18日公開予定)で採用されたことを発表いたします。

■背景
rinna社は、MicrosoftのAI&リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業です。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表してきました。これらの最新技術は、当社が運営するLINE上のAIチャットボット「AIりんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボットである「AIキャラクター」の開発に応用され、企業のマーケティングなどにお使いいただいています。

このたび、AIキャラクターの音声表現の多様性を高める新技術として、「多話者多言語音声合成」を発表しました。

 

■開発した技術
「多話者多言語音声合成」とは、1つのAI(音声合成モデル)から、複数話者と複数言語の音声を合成する技術です。rinna社では、日本語話者の音声と英語話者の音声を学習データとし、最先端のディープラーニング技術を用いることにより多話者多言語音声合成システムを構築しました。

 

従来、AIキャラクターの音声合成を実現するためには、対象の話者の音声を大量に収録する必要がありました。新たに開発した多話者多言語音声合成では、複数の話者の音声を用いて1つの音声合成モデルを学習することで、複数の話者・言語の音声を合成することができます。それによって、対象の話者の少量の音声からでも、その話者のキャラクター性を持った音声を合成することができます。

さらに、日本語と英語といった複数の言語の音声も含めて1つの音声合成モデルを学習することで、英語がしゃべれない話者のキャラクター性を保ったまま、英語の音声を合成することも可能となります。

 

■デモサイト
下記のサイトで、異なるキャラクター性を持った2つのAIチャットボットが、それぞれ「日本語」「英語」「英語混じりの日本語」「日本語混じりの英語」の台詞を発話するデモ音声を再生いただけます。

多話者多言語音声合成のデモ音源

 

■事例
多話者多言語音声合成の技術を使ってrinna社のAIが合成した日本語・英語の音声データが、東映株式会社より2020年12月18日に公開予定の映画『劇場版 仮面ライダーゼロワン REAL×TIME』の一部シーンで採用されました。

映画公式ホームページ

 

■今後の展開
rinna社は、人とAIのインタラクションを通じて人と人のコミュニケーションを次のフェーズへ進化させるべく、「すべての組織とすべての人にAIキャラクターを」をビジョンに、これから多様な個性を持ったAIキャラクターを世に生み出していこうとしています。今回発表した多話者多言語音声合成の技術は、少量の音声データを用いた学習により、それぞれのAIキャラクターがそれぞれの個性に応じた合成音声で会話することを可能にします。

関連記事

チャットボット