Google、マルチモーダル埋め込みモデル「Gemini Embedding 2」をパブリックプレビューリリース

Googleは2026年3月10日、Geminiアーキテクチャを基盤とする同社初のマルチモーダル埋め込みモデル「Gemini Embedding 2」をパブリックプレビューとしてリリースした。

Gemini Embedding 2: Our first natively multimodal embedding model

Start building with Gemini Embedding 2, our most capable and first fully multimodal embedding model built on the Gemini architecture. Now available in preview via the Gemini API and in Vertex AI. pic.twitter.com/jPE8KpN7Rf
— Google AI Developers (@googleaidevs) March 10, 2026

埋め込みモデルは、テキストなど人間が理解しやすいデータを数値（ベクトル）に変換してAIが扱いやすい形にするモデル。従来のGemini Embeddingはテキストデータのみを変換していたが、Gemini Embedding 2ではテキストに加え画像、ビデオ、オーディオ、ドキュメント（PDF）を扱うことができ、これらを単一の統合埋め込み空間にマッピングし、100以上の言語での意味を理解する。マルチモードを扱うための複雑なパイプラインが簡素化されるため、RAG（検索拡張生成）やセマンティック検索などの処理が強化される。

パフォーマンスも上がっており、テキスト処理のベンチマークで前モデルを大きく上回るほか、マルチモードでもAmazon Nova 2 Multimodal Embeddingsなどの他社モデルを凌駕するベンチマークを記録したという。

各モードが扱えるデータは以下の通り。

テキスト：最大8192個の入力トークンを含むコンテキストをサポート
画像：リクエストごとに最大6枚の画像を処理可能。PNGおよびJPEG形式をサポート
動画：MP4およびMOV形式で最大120秒の動画入力をサポート
音声：テキスト書き起こしなしで音声データをネイティブに取り込み埋め込み可能
ドキュメント：最大6ページのPDFを直接埋め込み

またGemini Embedding 2は、1つのリクエストで複数のモード（たとえば画像とテキスト）を渡すことが可能。これにより、異なるデータ形式の関係性を捉え、現実世界の複雑なデータをより正確に理解することが可能になる。

前モデル同様、Gemini Embedding 2には出力データの次元を動的にスケールダウンすることで情報をネストする手法であるMatryoshka Representation Learning（MRL）が組み込まれている。これにより、デフォルトの3072次元から柔軟な出力次元スケールダウンが可能になり、開発者はパフォーマンスとストレージコストのバランスをとることができる。

Gemini Embedding 2パブリックプレビュー版は、Gemini APIおよびVertex AI経由で利用できる。