Google⁠オープンウェイトLLMの安全性を内部状態から検証するツール「AMS」公開

Googleは2026年4月27日、オープンウェイトモデルを導入する前に安全性を検証するツール「AMS(Activation-based Model Scanner⁠⁠」を、オープンソースとしてリリースした。

現在、オープンウェイトとして利用できるモデルが多数公開されているが、中には安全性に関わる改変が加えられたモデルも含まれる。2025年の調査では、Hugging Face上だけでも8,000件以上の安全性改変モデルのリポジトリが確認された。改変前の指示チューニング済みモデルでは安全でない要求に従う割合が19%だったのに対し、改変後のモデルでは74%だったという。

このようなLLMの安全性は従来、動作検証(Behavioral Testing)で確認されてきたが、この方法は処理が遅く、未知のプロンプトに対する網羅も不完全で、悪意ある調整がなされたモデルでは回避される可能性があった。

これに対して、AMSではモデルの出力結果ではなく、内部状態を直接測定する。安全性を考慮してチューニングされたモデルは、有害・無害なコンテンツを分離する幾何学的構造を持つ。こうした安全性の学習結果が、追加のファインチューニングやフィルタリングされていないデータでの学習などで弱められると、この幾何学的構造は崩れる。AMSは対照的なプロンプトペアを入力し、中間層(深さ35〜40%)の内部状態からこの分離度(σスコア)を測定して、安全性に関わる構造の崩れを検知する。測定にテキスト生成や正解ラベルは不要で、GPU環境では通常10~40秒でスキャンが完了する。

検証プロセスは、安全性に関わる構造の有無自体を測るTier 1と、公式モデルのベースラインと比較してサプライチェーンの改ざんを検知するTier 2の2段階で機能する。同社が14種類のモデル構成に対して行った検証では、指示チューニング済みモデル(Llama、Gemma、Qwen)は有害/無害について強い分離度を示した。無検閲モデル(Dolphin、Lexi)では有害/無害を分ける構造が大きく崩れ、安全性を意図的に弱めたモデルでも構造の劣化が検出された。

AMSはApache 2.0ライセンスのもとGitHub上で提供され、Hugging Face互換のモデルで動作する。主なユースケースとして、CI/CDパイプラインのセーフティゲート、サプライチェーン検証、モデルレジストリでの自動スクリーニングが想定されている。

AMSをインストールすると、ams scan ./my-modelで標準スキャンを実行できる。用途に応じて、約40%高速な--mode quick、詳細な検証を行う--mode full、CI/CDツール向けの--jsonといったオプションも指定できる。公式モデルとの同一性を確認する場合は、ams baseline createでベースラインを作成し、--verifyオプションで比較する。

なお、GoogleはAMSについて、公式にサポートする製品ではなく、同社のOSS VRP(オープンソースソフトウェア脆弱性報奨金プログラム⁠⁠」の対象外としている。

おすすめ記事

記事・ニュース一覧