生成AIの内部で何が起こっているのか？ ―Anthropic、言語モデルの思考をトレースする“circuit tracer”をオープンソースとして公開

Anthropicは2025年5月29日、大規模言語モデルの思考過程をトレースするツールライブラリ「circuit tracer」を開発、オープンソースとして公開したことを発表した。

Open-sourcing circuit tracing tools | Anthropic

Find out more about our open-source interpretability tools, and how to use them on open-weights models, here: https://t.co/jY4NWc9rGW
— Anthropic (@AnthropicAI) May 29, 2025

同社ではかねてから、AIモデルが特定の出力結果を出すために内部で思考した手順を、部分的に明らかにする研究を進めてきた。このほどそれを視覚的に表現するアトリビューショングラフの生成をサポートするライブラリを、オープンソースとしてGitHub上に公開した。これにより誰でもこの研究を活用できるという。

safety-research/circuit-tracer | GitHub

また、このツールのデモはオープンソースの解釈可能性（Interpretability）プラットフォームであるNeuronpedia上で公開されており、ここでは選択したプロンプトに対して独自のアトリビューショングラフを生成・表示できる。またインタラクティブなフロントエンドでグラフを視覚化し、注釈を付け、共有したり、特徴量の値を変更し、モデル出力の変化を観察することで仮説を検証することも可能。

gemma-2-2b Attribution Graph | Neuronpedia - Circuit Tracer