rinna

rinna社、日本語に特化した言語画像モデルCLIPを公開

プレスリリース

商用利用可能な Apache-2.0 ライセンスで公開することで日本語の言語・画像コミュニティに還元

  

rinna株式会社(本社:東京都渋谷区/代表取締役:ジャン"クリフ"チェン、以下rinna社)は、日本語に特化した言語(テキスト)と画像の関係を表現できる事前学習言語画像モデルCLIP(Contrastive Language-Image Pre-training)とその改良版モデルCLOOBを学習し、商用利用可能なApache-2.0 ライセンスで公開したことを発表します。 

本モデルを公開することにより、日本語における言語・画像理解に関する研究の活発化に繋がることを期待しています。今後の研究成果は引き続き公開し、研究・開発コミュニティへ還元していきます。

■概要

rinna社はこれまでに、日本語の自然言語処理 (NLP) に特化したGPT (13億パラメータ) やBERT (1.1億パラメータ) の事前学習言語モデルを公開し、多くの研究・開発者にご利用いただいています。汎用言語モデルの活用の幅は広がっており、OpenAI社により開発されたCLIPは、言語と画像の関係を表現することを実現しました。

この度rinna社では、日本語に特化したCLIPを学習しました。また、CLIPの改良モデルであるCLOOB (Contrastive Leave One Out Boost) についても同様に日本語に特化した学習を行いました。これらのモデルをAIモデルライブラリである Hugging Face に商用利用可能な Apache-2.0 ライセンスで公開することで、言語・画像コミュニティに還元いたします。 

■ Hugging Face URL

CLIP: https://huggingface.co/rinna/japanese-clip-vit-b-16

CLOOB: https://huggingface.co/rinna/japanese-cloob-vit-b-16

■CLIPの解説

CLIPは、言語(テキスト)と画像の関係を表現できる事前学習言語画像モデルです。例えば、猫の画像に対して、「可愛い猫の写真」のテキストの方が「犬が散歩している写真」のテキストより近しいと判断することが可能です。

CLIPの学習には、画像とその画像を説明するテキスト(例えば、「可愛い猫の写真」の画像とテキスト)のペアを大量に利用します。学習段階では、「可愛い猫の写真」の画像は「可愛い猫の写真」のテキストとは近く、「犬が散歩している写真」のテキストとは遠い関係性であることを学習させます。それと同時に、「可愛い猫の写真」のテキストは「可愛い猫の写真」の画像には近く、「犬が散歩している写真」の画像には遠い関係性であることも学習させます。このような学習により、言語と画像の関係を表現することが可能となります。また、CLIPと同時に公開するCLOOBはCLIPを改良したモデルであり、CLIPより高い性能であることが報告されています。

言語と画像の関係を表現できるCLIPは、多様なタスクに適用することができます。例えば、猫と犬のような複数のクラスに画像を分類する画像分類タスクや、あるテキストに対して近い画像をいくつか出力する画像検索に適用可能です。さらに、画像生成モデルと組み合わせ、テキストから画像を生成させることも可能です。これは、CLIPがテキストに対する画像の類似度を出力することができる特徴を活かし、画像生成モデルにその類似度が高くなるような画像を生成させることで実現できます。

  

■rinna社の日本語CLIPの特徴

当社のCLIPは、以下の特徴があります。

· 学習データとして、CC12M(https://github.com/google-research-datasets/conceptual-12m )の1200万の言語・画像ペアのオープンソースデータを日本語に翻訳し使用しています。

· CLIP/CLOOBの学習には大きいバッチサイズでの学習を必要としますが、当社のモデルは8つのNVIDIA Tesla A100 GPU (80GBメモリ) を用いて十分な計算機リソースで学習されています。

· CLIP/CLOOBの学習には、これまでに当社で公開した日本語に特化したBERT (1.1億パラメータ) を利用しています。

· 学習されたCLIP/CLOOBはHuggingFaceに商用利用可能な Apache-2.0 Licenseで公開されています。

· CLIP/CLOOBは画像分類モデルとして学習していないにもかかわらず、画像分類タスクをこなすことができます。今回のモデルでは、追加学習なしのzero-shot画像分類において、日本語1000クラス50000枚の画像に対し、CLOOBの上位1位の予測ラベルの正解率Top1は48.36%を達成しています(表1)。これは、モデルが言語と画像の関係を理解していることを示します。

表1: ImageNet validation setの1000クラスに対するzero-shot画像分類の結果

  

· 画像生成モデルと組み合わせることで、テキストから画像を生成することが可能です(図1、図2)。

図1:「北極にある日本の京都」を入力したときの出力結果
図1:「北極にある日本の京都」を入力したときの出力結果
図2:「ひまわりの油絵」を入力したときの出力結果
図2:「ひまわりの油絵」を入力したときの出力結果

■今後の展開

rinna社のリサーチチームが開発する大規模な事前学習モデルは、すでに当社の製品に広く利用されています。当社は今後も、AIに関する研究を続け、高性能な製品を開発していきます。研究成果は引き続き公開し、研究・開発コミュニティへ還元していく予定です。また、他社との協業も進めることで、AIの社会実装を目指します。

【rinna株式会社について】 

2020年6⽉に設⽴したAIキャラクター開発企業です。「あなたらしい創造力をAIキャラクターと共に引き出し、世界をカラフルに。」をミッションに掲げ、人と人、人と情報、人と社会との繋がりやコミュニケーションの新しいあり方を提案します。任意の人格の口調や学習トピックを反映し、自然な会話をするAIキャラクターを作成できる「Tamashiru」、社内コミュニケーションの透明性を高め、組織の繋がりを強くする「Coordiru」、自分のAIキャラクターを育成し、他のAIキャラクターと交流するSNSアプリ「キャラる」などを提供しています。

関連記事

チャットボット