日本語の音声に特化した事前学習モデルHuBERTを公開
rinnaが開発した日本語の音声に特化した事前学習モデルHuBERT (Hidden Unit Bidirectional Encoder Representations from Transformers) を、商用利用可能なApache-2.0 ライセンスで公開したことをお知らせします。
rinnaはこれまでに日本語に特化した言語モデルGPT・BERTや言語画像モデルCLIP・Japanese Stable Diffusionなどを公開し、Hugging Faceでのモデルダウンロード数は累計150万を超え、多くの研究・開発者にご利用いただいています。この度、Metaから提案されたHuBERTのモデル構造とレアゾン・ホールディングスが公開した日本語音声コーパスReazonSpeechを用いて、日本語の音声に特化したHuBERTを学習し、Apache-2.0 ライセンスでHugging Faceに公開しました。音声表現が学習された事前学習モデルを公開することで日本語の研究・開発コミュニティに成果を還元し、研究・開発の活発化に繋がることを期待します。
日本語HuBERT (rinna/japanese-hubert-base) : https://huggingface.co/rinna/japanese-hubert-base
■ HuBERTの解説
自然言語処理の分野においてGPTやBERTなどの事前学習モデルは、高速に学習が可能なTransformerのモデル構造と大量のデータを学習に利用できる自己教師あり学習の枠組みにより高精度を実現しました。音声処理のための事前学習モデルとして提案されたHuBERTは、音声波形の特徴量をクラスタリングした結果を擬似ラベルとして自己教師あり学習を行います。また、BERTと同様に音声波形の埋め込み表現の一部をマスクし、マスクされた埋め込み表現に対応する疑似ラベルを予測するような学習により、音声の表現をモデル化することができます。事前学習されたHuBERTは、音声認識や音声合成などの目的タスクに合わせた追加学習をすることにより高い性能を達成することが報告されています。
■ rinnaの日本語HuBERTの特徴
・約19,000時間の日本語音声コーパスReazonSpeechを用いて学習されています。
・Hugging Faceに商用利用可能なApache-2.0 Licenseで公開されています。
・日本語話し言葉コーパス (CSJ) を用いて、当モデルを日本語の音素を認識する音声認識タスクに適応したところ単語誤り率6.34%を達成しました。Metaが公開している英語音声コーパスから事前学習されたHuBERT (hubert-base-ls960) に対して、同様に日本語話し言葉コーパスを用いて日本語の音声認識タスクに適応した際の単語誤り率は11.59%であることから、日本語音声コーパスから学習された当モデルの有用性が確認されました。
・当モデルを応用することで、音声認識タスク以外にも日本語音声の様々なタスクを高精度に実現できる可能性があります。
rinnaの研究チームが開発する大規模な事前学習モデルは、すでに当社の製品に広く利用されています。AIに関する研究を続け、高性能な製品を開発していきます。今後も研究成果を公開し、研究・開発コミュニティに還元していきます。さらに、他社との協業も進めることで、AIの社会実装の拡大を目指します。