Googleは2026年4月27日、オープンウェイトモデルを導入する前に安全性を検証するツール
現在、オープンウェイトとして利用できるモデルが多数公開されているが、中には安全性に関わる改変が加えられたモデルも含まれる。2025年の調査では、Hugging Face上だけでも8,000件以上の安全性改変モデルのリポジトリが確認された。改変前の指示チューニング済みモデルでは安全でない要求に従う割合が19%だったのに対し、改変後のモデルでは74%だったという。
このようなLLMの安全性は従来、動作検証
これに対して、AMSではモデルの出力結果ではなく、内部状態を直接測定する。安全性を考慮してチューニングされたモデルは、有害・
検証プロセスは、安全性に関わる構造の有無自体を測るTier 1と、公式モデルのベースラインと比較してサプライチェーンの改ざんを検知するTier 2の2段階で機能する。同社が14種類のモデル構成に対して行った検証では、指示チューニング済みモデル
AMSはApache 2.
AMSをインストールすると、ams scan ./で標準スキャンを実行できる。用途に応じて、約40%高速な--mode quick、詳細な検証を行う--mode full、CI/--jsonといったオプションも指定できる。公式モデルとの同一性を確認する場合は、ams baseline createでベースラインを作成し、--verifyオプションで比較する。
なお、GoogleはAMSについて、公式にサポートする製品ではなく、同社の