Google⁠Gemma 3nをリリース ―エッジデバイスでの動作効率が大幅アップ⁠フレキシブルなマルチモーダルモデル

Googleは2025年6月26日、軽量AIモデル「Gemma」の新バージョンGemma 3nを正式リリースした。

Gemma 3nはマルチモーダル設計で、画像、音声、動画、テキストの入力と出力をネイティブにサポートしており、以下のような特徴をもつ。

メモリ利用効率の向上
Gemma 3nはパラメータ数5Bと8Bのモデルが用意されている。これらはメモリ効率を高めるPer Layer Embeddings(PLE:レイヤ単位の埋め込み)などのアーキテクチャ改良により、従来の2Bおよび4Bモデルと同等のメモリフットプリントで動作するため、実効パラメータに基づいてそれぞれ「E2B」「E4B」と呼ばれ、デバイス上では最小2GB(E2B)および3GB(E4B)のメモリで動作が可能。
「マトリョーシカ」アーキテクチャの採用
Gemma 3nの中核としてMatFormer(Matryoshka Transformer)アーキテクチャを採用。従来は埋め込み(embedding)で用いられていたネスト型構造Matryoshka Representation Learning(MRL)の概念をTransformerにも拡張したもので、1つのembeddingの中に複数の粒度の情報を持たせることで、利用するタスクや計算リソースに応じて柔軟にサイズや精度を調整できる手法。マトリョーシカ人形のように、大きなモデルの中により小さな完全に機能するモデルが組み込まれる。これにより、E4BモデルのMatFormerトレーニング中に、最大2倍の推論速度をもつ事前抽出済みE2Bサブモデルを同時に最適化することができたり、Mix-n-Matchと呼ばれる手法を用いてE2BとE4Bの中間サイズのさまざまなカスタムモデルを作成できる。
多言語対応⁠品質の向上
Gemma 3nは日本語、ドイツ語、韓国語、スペイン語、フランス語など140言語のテキストと35言語のマルチモーダル解釈をサポートし、数学、コーディング、推論の各分野でも品質向上を実現。E4BモデルはLMArenaスコア1300以上と、100億パラメータ未満のモデルとして初めてこのベンチマークを達成した。
最新のビジョンエンコーダ搭載
ハイパフォーマンスな新ビジョンエンコーダMobileNet-V5-300Mを搭載、エッジデバイスでのマルチモーダルの操作で高い性能を発揮する。これによりGemma 3 4Bモデルと比較してモバイルでの応答が1.52倍高速になったという。

Gemma 3nはHugging FaceおよびKaggleでモデルをダウンロードして確認できるほか、Google AI Studio上で簡単に試すことも可能。

またGoogleは今回のGemma 3nのリリースに合わせて、現実世界の課題解決を目指した最高賞金5万ドルのハッカソンコンテストThe Gemma 3n Impact ChallengeをKaggle上で開催することを発表している。

おすすめ記事

記事・ニュース一覧