Google⁠マルチモーダル埋め込みモデル「Gemini Embedding 2」パブリックプレビューリリース

Googleは2026年3月10日、Geminiアーキテクチャを基盤とする同社初のマルチモーダル埋め込みモデル「Gemini Embedding 2」をパブリックプレビューとしてリリースした。

埋め込みモデルは、テキストなど人間が理解しやすいデータを数値(ベクトル)に変換してAIが扱いやすい形にするモデル。従来のGemini Embeddingはテキストデータのみを変換していたが、Gemini Embedding 2ではテキストに加え画像、ビデオ、オーディオ、ドキュメント(PDF)を扱うことができ、これらを単一の統合埋め込み空間にマッピングし、100以上の言語での意味を理解する。マルチモードを扱うための複雑なパイプラインが簡素化されるため、RAG(検索拡張生成)やセマンティック検索などの処理が強化される。

パフォーマンスも上がっており、テキスト処理のベンチマークで前モデルを大きく上回るほか、マルチモードでもAmazon Nova 2 Multimodal Embeddingsなどの他社モデルを凌駕するベンチマークを記録したという。

各モードが扱えるデータは以下の通り。

  • テキスト:最大8192個の入力トークンを含むコンテキストをサポート
  • 画像:リクエストごとに最大6枚の画像を処理可能。PNGおよびJPEG形式をサポート
  • 動画:MP4およびMOV形式で最大120秒の動画入力をサポート
  • 音声:テキスト書き起こしなしで音声データをネイティブに取り込み埋め込み可能
  • ドキュメント:最大6ページのPDFを直接埋め込み

またGemini Embedding 2は、1つのリクエストで複数のモード(たとえば画像とテキスト)を渡すことが可能。これにより、異なるデータ形式の関係性を捉え、現実世界の複雑なデータをより正確に理解することが可能になる。

マルチモード入力のイメージ

前モデル同様、Gemini Embedding 2には出力データの次元を動的にスケールダウンすることで情報をネストする手法であるMatryoshka Representation Learning(MRL)が組み込まれている。これにより、デフォルトの3072次元から柔軟な出力次元スケールダウンが可能になり、開発者はパフォーマンスとストレージコストのバランスをとることができる。

Gemini Embedding 2パブリックプレビュー版は、Gemini APIおよびVertex AI経由で利用できる。

おすすめ記事

記事・ニュース一覧