rinna

ユースケース

利用シーンやキャラクターに合わせて声を自由に生成できる、感情を乗せてリアルな発話を実現する音声合成「Koeiromap」

人間の音声をAIで生成する音声合成。技術の発達によってより人間に近い発話が可能になったことで、近年ますますビジネスにおいて注目を集めています。今回は、そんな音声合成技術の中でも特にリアルな発話を実現する「Koeiromap(コエイロマップ)」をご紹介。特長やユースケースのほか、Koeiromapで合成した音声に合わせてフェイスモーションも生成できるサービス「Koemotion(コエモーション)」についても解説します。 

音声合成とは 

音声合成(Text to Speech)とは、テキストと対応する音声を機械学習する(テキストと対応する音声をAIに学習させる)ことで、文章に合わせた声をAIが生成する技術のこと。任意のテキストを音声に変換することで、様々なシーンで発話が可能になります。  

この音声合成は、ゲーム、AITuber、キャラクター運用、コールセンターの自動応答、ATM、家電・スマートフォン等の電子機器の案内、駅・空港・商業施設・エレベーター・カーナビゲーション等の案内放送など、音声を扱う領域において生活者のタッチポイントの各所で利用されており、デジタルデバイスの発展とともにその種類も拡充。近年は音声合成技術の進化によって、従来よりも人間の肉声に近い音声を生成できるようになったことで、ビジネスでの活用シーンも増えてきています。 

豊富な声色・豊かな感情表現を実現する音声合成機能「Koeiromap」 

音声合成機能「Koeiromap」は、多様な音声合成を可能にし、ビジネスアジリティや生産性の向上に結びつけることができます。具体的にどのような特長があるのか、詳しくご紹介します。 

多種多様な声色を簡単に生成できる音声合成API

「Koeiromap」は、従来の音声合成製品のように事前に用意された特定の話者の音声を合成するのではなく、106話者から収録した約110時間の音声を用いて学習し、それらを数値化した2次元空間(マップ)から任意の座標を選択。話者の声色を多種多様にカスタマイズして、音声を合成する仕組みです。 

一般的なアナウンスや電話での音声応答などに加え、ゲームのNPCのフルボイス化、リアルタイム音声対話システム、AITuberの配信など、豊富な音声を必要とするシーンで活用することが可能。 特定の人物の音声データを活用(収録)して、オリジナル音声を生成することもできます。

7種類の音声合成で感情にあわせた発話を実現 

話者の声色だけでなく、感情を乗せて合成できる点も「Koeiromap」の特長のひとつ。現在、通常・喜び・悲しみ・怒り・恐れ・驚き・囁きの7種類の感情データがインプットされており、合成音声と組み合わせることでよりリアルな対話を実現オプションで、入力されたテキストに込められた感情を予測するモデルも提供していま 

日本語での自然な発話が可能 

他言語に比べて特徴が多く、音声合成エンジンの構築が難しいといわれている日本語。rinnaでは、そんな日本語に特化したハイレベルな音声合成の研究・開発に取り組んでおり、世界最大規模の国際会議「INTERSPEECH 2022」にて2つの論文が採択されるという実績を持っています。「Koeiromap」にも高度な音声生成技術が搭載されており、日本語による自然な発話を実現します。 

Koeiromap」のユースケース 

Koeiromap」は、その豊富な表現力によって、個人から法人まで様々な音声利用シーンで活用できます。 

キャラクター作成におけるクリエターサポート 

自作キャラクターの音声を生成する際、既存の音声合成システムを利用するとどうしても同じ声色のものに偏る傾向があります。だからといって声にバリエーションを持たせようとすると権利やコスト、手間などの課題があるため、個性を反映したキャラクター作りのハードルはまだまだ高いのが現状です。

ユースケース

・「Koeiromap」は、2次元マップから様々な話者の声色を選択して音声を合成できるため、多くのキャラクターが登場する小説のオーディオブック化やゲーム制作、動画制作にも展開可能
・個性を反映した音声の生成を行うことができる 
・音声を複数生成したいときも追加料金がかからないため、コスト削減も実現 
・実際の声優やナレーターをアサインしなくても、一定のクオリティを保った音声データを制作できる 
・感情を乗せられるので、インタラクティブサイネージにおけるコミュニケーションの活性化も期待できる
 

コールセンターにおける顧客満足度の向上 

ユーザーからの電話での問い合わせに対して、自動的に受電し、内容をヒアリングする自動音声ガイダンス。業務効率化や人件費などのコスト削減を目的に、多くの企業が導入しています。しかし、一般的な自動音声ガイダンスだとどうしても単調な声色になり、相手に冷淡な印象を与えてしまう場合があるため、いかに人による案内に近いホスピタリティを維持できるかがカギになります。

受付業務の簡略化 

来社したクライアントの対応を社内の担当者に取り次いだり、電話で呼び出したりする受付業務。人的リソースやミスの削減、フローの簡略化のために人員は配置せず、タッチパネルによる案内を導入する企業も増えてきています。しかし、タッチパネルだけでは操作方法や案内フローが分かりにくい場合も。自動音声ガイダンスと併用することである程度解消できますが、コールセンターのケースと同様、一般的な機械音声だと冷淡な印象を与えることがあります。企業とクライアントの最初のタッチポイントとなるため、デザイン性や操作性に配慮する等、イメージアップに貢献できるようなシステム導入が欠かせません。 

ユースケース 

・顧客タイプにあわせて声色を変えるなど、導入するシーンとアイディア次第で顧客満足度の向上が期待できる 
・感情を乗せることができるため、一般的な自動音声よりも単調な印象を払拭できる 
・声印象が良くなることで、自動音声で案内できるシーンの拡大に繋がる 

ユースケース

・受付システムと連携することによって人的コストを抑えられる 
・インタラクティブなやり取りが必要なシーンにおいて、システムに豊かな声色を導入することで効率的な顧客対応を実現 
・感情を乗せた温度感のある声色で、ホスピタリティの担保も期待できる 

生成した合成音声にモーションを追加できるサービスKoemotion 

音声はもちろん、動作も含めたデータ生成を行いたい場合に最適なのが「Koemotion」。「Koeiromap」を組み込んだAI生成サービスで、コエ・エモーション・モーションの3つを扱える点が特長です。「Koeiromap」で合成済みの音声と同期させたフェイスモーションを生成し、2D・3Dモデルや画像生成AIと組み合わせることで、音声にあわせてキャラクターの表情を自由に動かすことが可能に。rinnaが提供している、AIキャラクターとの交流を楽しめるAIコミュニケーションサービス「キャラる」にも活用されています。 

その他、Koemotion APIは用途に合わせて様々なシステムに組み込むことができるため、システムゲームのNPCのフルボイス化、リアルタイム音声対話システム、AITuberの配信など幅広いシーンでの活躍が期待できます。 

「Koeiromap」も利用できる「Koemotion」の導入の流れ 

従来の音声合成と異なり、より人間に近いリアルな対話を可能にする「Koeiromap」や「Koemotion」。導入の仕方次第でコスト削減や効率化はもちろん、イノベーションの創発にも貢献することができます。お客様の課題にあわせて要件定義から実装後のサポートまで支援いたしますので、ぜひお気軽にお問い合わせください。 

チャットボット