生成AIの内部で何が起こっているのか―Anthropic⁠言語モデルの思考をトレースする“circuit tracer”オープンソースとして公開

Anthropicは2025年5月29日、大規模言語モデルの思考過程をトレースするツールライブラリ「circuit tracer」を開発、オープンソースとして公開したことを発表した。

同社ではかねてから、AIモデルが特定の出力結果を出すために内部で思考した手順を、部分的に明らかにする研究を進めてきた。このほどそれを視覚的に表現するアトリビューショングラフの生成をサポートするライブラリを、オープンソースとしてGitHub上に公開した。これにより誰でもこの研究を活用できるという。

また、このツールのデモはオープンソースの解釈可能性(Interpretability)プラットフォームであるNeuronpedia上で公開されており、ここでは選択したプロンプトに対して独自のアトリビューショングラフを生成・表示できる。またインタラクティブなフロントエンドでグラフを視覚化し、注釈を付け、共有したり、特徴量の値を変更し、モデル出力の変化を観察することで仮説を検証することも可能。

Neuronpedia - Circuit Tracer

おすすめ記事

記事・ニュース一覧