Google⁠ローカルハードウェア上で実行できる高性能なマルチモーダル推論モデルGemma 4をオープンモデルとしてリリース

Googleは2026年4月2日、軽量言語モデルGemmaの最新バージョン「Gemma 4」を、Apache 2.0ライセンスの元オープンモデルとしてリリースした。

Gemma 4は、ユーザーが自身のハードウェア上で実行できる同社で最も高性能なモデルファミリー。140以上の言語でネイティブに学習済みで、関数呼び出し、構造化されたJSON出力、およびネイティブシステム命令、高品質なオフラインコードをサポート、高度な推論とエージェント型ワークフローのために構築されており、Effective 2B(E2B⁠⁠、Effective 4B(E4B⁠⁠、26B Mixture of Experts(MoE⁠⁠、31B Denseの4つのサイズが用意される。

このうちE2BとE4Bの2モデルは128Kのコンテキストウィンドウを備え、パラメータ数よりもマルチモーダル機能、低遅延処理を優先して、リアルタイムのテキスト、ビジョン、オーディオ処理に対応したモバイル向けに設計されている。スマートフォン、Raspberry Pi、NVIDIA、Jetson Orin Nanoなどのエッジデバイス上で完全オフラインで動作する。

また、26B MoEと31B Denseは最大256Kまでのコンテキストウィンドウに対応しており、リポジトリや長文ドキュメントを1つのプロンプトで渡すことができる。パラメータあたりのインテリジェンスを重視し、ハードウェアのオーバーヘッドを大幅に削減しながら、高度なローカル推論タスクに向けに優れた性能を発揮し、カスタムコーディングアシスタントや科学データセットの分析などに対応する。量子化されていないbfloat16ウェイトは80GBのNVIDIA H100 GPU 1枚に収まるほか、量子化バージョンはコンシューマー向けGPU上でネイティブに動作する。

Gemma 4はGoogle AI Studio(31B・26B MoE⁠⁠、Google AI Edge Gallery(E4B、E2B)ですぐに試すことができる。

Android向けには、Android Studioのエージェントモードを強化し、ML Kit GenAI Prompt APIを使用してAndroid上で本番環境向けのアプリ開発を開始できる。

また、HuggingFaceKaggleOllamaからモデルウェイトをダウンロードすることができる。

このほか、NVIDIAでは同社のGPUやモバイル用ハードウェアでGemma 4を活用する方法を紹介している。

おすすめ記事

記事・ニュース一覧