Google、オープンウェイトLLMの安全性を内部状態から検証するツール「AMS」を公開

Googleは2026年4月27日、オープンウェイトモデルを導入する前に安全性を検証するツール「AMS（Activation-based Model Scanner⁠）⁠」を、オープンソースとしてリリースした。

Introducing AMS: Activation-based model scanner for open-weight LLM safety verification -Google Open Source Blog

現在、オープンウェイトとして利用できるモデルが多数公開されているが、中には安全性に関わる改変が加えられたモデルも含まれる。2025年の調査では、Hugging Face上だけでも8,000件以上の安全性改変モデルのリポジトリが確認された。改変前の指示チューニング済みモデルでは安全でない要求に従う割合が19％だったのに対し、改変後のモデルでは74％だったという。

このようなLLMの安全性は従来、動作検証（Behavioral Testing）で確認されてきたが、この方法は処理が遅く、未知のプロンプトに対する網羅も不完全で、悪意ある調整がなされたモデルでは回避される可能性があった。

これに対して、AMSではモデルの出力結果ではなく、内部状態を直接測定する。安全性を考慮してチューニングされたモデルは、有害・無害なコンテンツを分離する幾何学的構造を持つ。こうした安全性の学習結果が、追加のファインチューニングやフィルタリングされていないデータでの学習などで弱められると、この幾何学的構造は崩れる。AMSは対照的なプロンプトペアを入力し、中間層（深さ35〜40％）の内部状態からこの分離度（σスコア）を測定して、安全性に関わる構造の崩れを検知する。測定にテキスト生成や正解ラベルは不要で、GPU環境では通常10～40秒でスキャンが完了する。

検証プロセスは、安全性に関わる構造の有無自体を測るTier 1と、公式モデルのベースラインと比較してサプライチェーンの改ざんを検知するTier 2の2段階で機能する。同社が14種類のモデル構成に対して行った検証では、指示チューニング済みモデル（Llama、Gemma、Qwen）は有害／無害について強い分離度を示した。無検閲モデル（Dolphin、Lexi）では有害／無害を分ける構造が大きく崩れ、安全性を意図的に弱めたモデルでも構造の劣化が検出された。

AMSはApache 2.0ライセンスのもとGitHub上で提供され、Hugging Face互換のモデルで動作する。主なユースケースとして、CI/CDパイプラインのセーフティゲート、サプライチェーン検証、モデルレジストリでの自動スクリーニングが想定されている。

AMSをインストールすると、ams scan ./my-modelで標準スキャンを実行できる。用途に応じて、約40％高速な--mode quick、詳細な検証を行う--mode full、CI/CDツール向けの--jsonといったオプションも指定できる。公式モデルとの同一性を確認する場合は、ams baseline createでベースラインを作成し、--verifyオプションで比較する。

なお、GoogleはAMSについて、公式にサポートする製品ではなく、同社の「OSS VRP（オープンソースソフトウェア脆弱性報奨金プログラム⁠）⁠」の対象外としている。