rinna

音声処理における世界最大規模の国際会議INTERSPEECH 2022でrinna社の音声合成技術に関する論文が採択

プレスリリース

20210825.jpg

rinna株式会社(本社:東京都渋谷区/代表取締役:ジャン"クリフ"チェン、以下rinna社)は、音声処理における世界最大規模の国際会議INTERSPEECH 2022においてrinna社の音声合成技術に関する2本の論文が採択されたことを発表します。第23回目となるINTERSPEECH 2022は本年9月に韓国仁川で開催されます。

■採用論文

End-to-End Text-to-Speech Based on Latent Representation of Speaking Styles Using Spontaneous Dialogue

(自発的対話を用いた発話スタイルの潜在表現に基づくEnd-to-End音声合成法)

執筆者:三井健太郎、趙天雨、沢田慶、法野行哉*、南角吉彦*、徳田恵一* (*名古屋工業大学)

音声サンプル:https://rinnakk.github.io/research/publications/DialogueTTS/

  

一定した口調の音声合成は、人間と区別がつかない品質まで向上しています。しかし、人間による実際の音声対話では、様々な発話スタイルや、笑い声、息継ぎなど言語では表せない発声が混在します。この論文では、二人の自発的対話を収録し、その発話スタイルを再現する音声合成システムを提案しました。提案手法では、対話の履歴を考慮し、相手の発声に同調した音声を合成できます。さらに、様々なバリエーションの相づち、笑い声の合成や、息継ぎの合成も実現できます。この技術は、チャットボットのテキスト対話の拡張となる音声対話への活用が期待されます。

発話の音声サンプル

スピーカー 1: 「あ、なんかそういう打楽器って専門が決まってるわけじゃないんだ。」

サンプル

スピーカー 2: 「うふふふふ!きな粉の量多すぎない?あれ。」

サンプル

対話の音声サンプル

スピーカー 1: 「なんか、ハマってる沼とかありますかー?」
スピーカー 2: 「うん。」
スピーカー 2: 「沼かー。もうでも沼っていうほどつかってる、」
スピーカー 1: 「うん。」
スピーカー 1: 「つかってる。」
スピーカー 2: 「あの分野は今はないかも。」

サンプル

スピーカー 1: 「あははははは!そうだよねえ。」
スピーカー 2: 「そう知らない情報もやっぱ2倍聞けるしおんなじ時間でも。」
スピーカー 1: 「うんうんうんうん!」
スピーカー 1: 「そっかあ。」
スピーカー 2: 「そうそれがねなんかね良かったことだなあ、最近だと。」
スピーカー 1: 「そうだよなんか、こんなに楽しいっけみたいな。なるよね?」  

サンプル

MSR-NV: Neural Vocoder Using Multiple Sampling Rates

(MSR-NV: 複数のサンプリングレートを用いたニューラルボコーダ)

執筆者:三井健太郎、沢田慶

音声サンプル:https://rinnakk.github.io/research/publications/MSR-NV/

音声の解像度に当たるサンプリングレート(※1)は、音声の品質において重要な役割を果たします。この論文では、低いサンプリングレートから段階的に音声を合成することにより、音声合成の品質が向上することを示しています。また、サンプリングレートを段階的に予測するという特徴から、低いサンプリングレートで収録された音声データと高いサンプリングレートで収録した音声データを混ぜて音声合成モデルを学習することができます。この手法により、収録フォーマットが異なる音声データを大量に利用することが可能となり、高精度な音声合成モデルの学習が期待されます。

※1:1秒間に実行する標本化処理の回数。サンプリング周波数。

■今後のrinna社の研究発表

rinna社のリサーチチームは、研究成果の発表を以下の場で行います。

MIRU 2022 第25回 画像の認識・理解シンポジウム

日時:2022年7月25日(月)~28日(木)

公式サイト:https://sites.google.com/view/miru2022

「日本語における言語画像事前学習モデルの構築と公開」

シーン誠、趙天雨、沢田慶

CEDEC 2022

日時:2022年8月23日(火)~25日(木)

公式サイト:https://cedec.cesa.or.jp/2022

「ディープラーニングの活用:AI × キャラクターによる新しいゲームの世界」

沢田慶、シーン誠、三井健太郎、趙天雨

セッションURL:https://cedec.cesa.or.jp/2022/session/detail/105

日本音響学会2022年秋季研究発表会

日時:2022年9月14日(水)~16日(金)

公式サイト:https://acoustics.jp/annualmeeting/

「自発的対話を用いた潜在スタイル表現の抽出・予測に基づく音声合成」

三井健太郎、趙天雨、沢田慶、法野行哉*、南角吉彦*、徳田恵一* (*名古屋工業大学)

「テキストを入力とする音声・顔ランドマーク系列の同期生成」

三井健太郎、沢田慶

INTERSPEECH 2022

日時:2022年9月18日(日)~22日(木)

公式サイト:https://interspeech2022.org/

「End-to-End Text-to-Speech Based on Latent Representation of Speaking Styles Using Spontaneous Dialogue」

三井健太郎、趙天雨、沢田慶、法野行哉*、南角吉彦*、徳田恵一* (*名古屋工業大学)

「MSR-NV: Neural Vocoder Using Multiple Sampling Rates」

三井健太郎、沢田慶

■rinna社のリサーチチームの取り組み

rinna社のリサーチチームでは、人工知能によるテキスト・音声・画像の生成を中心に研究開発を行っています。研究成果は、トップカンファレンスをはじめとする会議で発表しています。また、日本語に特化したGPT・BERT・CLIP等の大規模事前学習モデルを学習・公開する活動も行っています。さらに、最先端の技術をユーザー体験として提供するためのサービス開発も進めています。これらの研究活動を通して、会社のビジョンである人とAIの共創世界を目指します。信頼できるAI技術を活用し、すべての人が自分らしく活き活きと過ごすことができる、色とりどりの世界を実現します。

【rinna株式会社について】

2020年6⽉に設⽴したAIキャラクター開発企業です。「あなたらしい創造力をAIキャラクターと共に引き出し、世界をカラフルに。」をミッションに掲げ、人と人、人と情報、人と社会との繋がりやコミュニケーションの新しいあり方を提案します。任意の人格の口調や学習トピックを反映し、自然な会話をするAIキャラクターを作成できる「Tamashiru」、社内コミュニケーションの透明性を高め、組織の繋がりを強くする「Coordiru」、自分のAIキャラクターを育成し、他のAIキャラクターと交流するSNSアプリ「キャラる」などを提供しています。

関連記事

チャットボット