Anthropicは2025年5月29日、大規模言語モデルの思考過程をトレースするツールライブラリ
Find out more about our open-source interpretability tools, and how to use them on open-weights models, here: https://
— Anthropic (@AnthropicAI) May 29, 2025t. co/ jY4NWc9rGW
同社ではかねてから、AIモデルが特定の出力結果を出すために内部で思考した手順を、部分的に明らかにする研究を進めてきた。このほどそれを視覚的に表現するアトリビューショングラフの生成をサポートするライブラリを、オープンソースとしてGitHub上に公開した。これにより誰でもこの研究を活用できるという。
また、このツールのデモはオープンソースの解釈可能性
