Anthropic⁠Claudeの新しい“憲法”公開

Anthropicは2026年1月22日、同社のAIモデルClaudeの守るべき行動規範となる⁠憲法⁠(constitution)を更新し、クリエイティブ・コモンズ(CC0)1.0ライセンスのもと、新たに公開した。

この憲法は、⁠Claudeとは何者なのか」を表現し、Claudeの学習プロセスにおいてそのふるまいを直接形作る非常に重要な部分となる基礎文書である。Claudeのトレーニングプロセスのさまざまな段階で憲法が使用されている。これはトレーニングを初めて開始した2023年から使用してきたトレーニング手法から発展したもので、アプローチが大きく進化する中、新しい憲法はトレーニングにおいてさらに中心的な役割を果たしているという。

また透明性の観点から、同社では憲法を公開することは特に重要と考えている。憲法を公開することで、ユーザーはClaudeの行動のうち、意図的なものとそうでないものを理解し、情報に基づいた選択を行い、有用なフィードバックを提供することができる。AIが社会でより大きな影響力を持つようになるにつれて、この種の透明性はますます重要になると考えられる。

以前の憲法は、独立した原則の羅列で構成されていた。新しい憲法では異なるアプローチがとられており、単に行動を指示するのではなく、その理由を説明する形式となっている。モデルが新しい状況において適切な判断を下せるようにするには、特定のルールに機械的に従うのではなく、幅広い原則を適用できる一般化能力を養う必要がある。

具体的なルールや明確な線引きにも利点があり、モデルの動作がより予測可能で、透明性を高くすることができ、検証可能となる。このため、Claudeが決して行うべきではない、特にリスクの高い行動(同社で⁠ハード制約(hard constraints)⁠と呼ぶ)にこれらが使用されている。

モデルの学習は困難な作業であり、Claudeの出力は必ずしも憲法の理想に沿ったものになるとは限らない。しかし、同社の意図とその背景にある理由を丁寧に説明した記述方法である新しい憲法によって、学習中に適切な価値観が育まれる可能性が高まると考えているとのこと。

新しい憲法の大きな原則として、以下の要素が挙げられている。

  1. 広く安全であること:
    現在の開発段階において、AIを監視するための適切な人間的メカニズムを損なわないこと。
  2. 広く倫理的であること:
    誠実であり、良き価値観に従って行動し、不適切、危険、または有害な行動を避けること。
  3. Anthropicのガイドライン[1]に準拠すること:
    Anthropicのより具体的なガイドラインに該当する場合、それに従って行動すること。
  4. するオペレーターとユーザーに利益をもたらすこと。

以上を守っても明らかなコンフリクト(矛盾)が生じている場合、Claudeのふるまいは上記の番号順に優先順位付けされる。ただし、優先度の低いものと高いものと単純に比較するだけでなく、これらの異なる優先順位を比較検討して全体的な判断を下すことを望んでいるという。

Claudeの憲法の全文は、以下のURLで公開されている。

Claude’s Constitution -Our vision for Claude's character
URL:https://www.anthropic.com/constitution

おすすめ記事

記事・ニュース一覧