Cloudflare、AIクローラー制御の新方針を掲げる「Content Independence Day」を発表 ——報酬のないAIクロールのブロック制御機能をすべてのユーザーに提供

Cloudflareは2025年7月1日、同社が運用するCDNサービスにおけるAIクローラーによるウェブコンテンツの利用について、「⁠コンテンツ作成者に報酬を支払わない限り、AIクロールをブロックできる方針」へと大きく舵を切り、その制御機能をすべてのユーザーに導入することを発表した。

この方針転換は「Content Independence Day」という題目で発表しており、AI時代におけるコンテンツ作成者の権利回復に向けた新しい取り組みであること、そして次のステップとしてAI企業と出会えるマーケットプレイスの創造をおこなっていくことを述べている。

Content Independence Day: no AI crawl without compensation! - Cloudflare Blog
（⁠日本語版：コンテンツ独立記念日：報酬なしのAIクロールは許さない！）

従来の検索エンジン（Googleなど）は「コンテンツ提供と引き換えにトラフィックを還元する」という長年続いた関係性のもと、サイト運営者も何らかの価値を見出していた。しかし近年、OpenAIやAnthropicなどAI企業のクローラーは、サイトから大量のデータを取得しAIサービスで直接回答を提供する一方、元サイトへのトラフィック還元が少なくなっている。

このトラフィック還元の少なさについて、Cloudflareは調査している。AI Search Crawl/Refer Ratio on Radarによれば、2025年6月19日〜26日における主要クローラーごとの「クロール数：リファラ比」の抜粋は以下のとおり[1]。

Google、9.4:1（複数あるボットのうちGooglebotが92.7%）
OpenAI、1,600:1（複数あるボットのうちGPTBotが94.2%）
Anthropic、70,900:1（複数あるボットのうちClaudeBotがほぼ100%）

つまり、Googlebotは約10回クロールごとに1件のトラフィック還元があるのに対し、GPTBotやAnthropicは極端に高いクロール数にもかかわらず、ほとんどトラフィックを返していないことがわかる。

さらにCloudflareは、主要クローラーの詳細な調査結果を「From Googlebot to GPTBot: Who’s Crawling Your Site in 2025? - Cloudflare Blog」として改めて公表している。

以下の表は、2024年5月と2025年5月に観測した主要AI・検索クローラーの総クロール数シェアである（⁠「⁠Breakdown of top 20 AI and search web crawlers」からの上位抜粋⁠）⁠。

順位	シェア（2024/5）	シェア（2025/5）	クローラー名	クローラー概要
1	30%	50%	Googlebot	Googleの従来型検索エンジンクローラー
2	10%	8.7%	Bingbot	MicrosoftのBing検索エンジンクローラー
3	2.2%	7.7%	GPTBot	OpenAIのAIモデル学習・推論用クローラー
4	11.7%	5.4%	ClaudeBot	AnthropicのAIモデル学習・推論用クローラー
5	4.4%	4.3%	GoogleOther	Googleの補助的なクローラー
6	7.6%	4.2%	Amazonbot	Amazonの検索・AIサービス用クローラー
7	4.5%	3.3%	Googlebot-Image	Google画像検索用クローラー
8	22.8%	2.9%	Bytespider	ByteDance（TikTok等）のAI・検索用クローラー
9	2.8%	2.2%	Yandex	Yandexの検索クローラー
10	0.1%	1.3%	ChatGPT-User	OpenAI ChatGPTユーザーによるWebアクセス
11	1.9%	1.2%	Applebot	AppleのSiri・Spotlight等向けクローラー
12	0.3%	0.6%	Timpibot	TimpibotのAI・検索用クローラー
13	0.5%	0.4%	Baiduspider	Baiduの検索クローラー
14	<0.01%	0.2%	PerplexityBot	Perplexity.aiのAI検索クローラー
15	0.2%	0.1%	DuckDuckBot	DuckDuckGoの検索クローラー

Googlebotが首位（であり昨年比でシェアも拡大）しているが、AIクローラーの存在感が昨年比で急速に台頭していると、まとめられている。

また2025年6月において、Cloudflare管轄の上位10,000ドメインのうちrobots.txtが確認できたのは3,816ドメインで、そのうちの約14%がAIクローラーへのアクセスについて明示的に可否の記述をしている状況とのこと。しかし、robots.txtによるAIクローラー制御の実効性や運用方法には課題が多く、多くのサイト運営者はAIクローラー対応について模索している段階にあるとみている。

こうした状況を受け、冒頭述べたように、CloudflareはAIクローラーに対する新たな対策をおこなうことを発表した。

その一つとして、すべてのユーザーに対して「managed robots.txt」を無料で提供する。この機能を有効にすることで主要なAIクローラーへの対応をCloudflare側に任せることができ、自動的にAIクローラーを検出してブロックできるようになる。Cloudflareのネットワーク上のウェブサイトでは、今後新規にCloudflareへ導入（オンボード）する場合、managed robots.txtの有効化を推奨する方針を取るという（自動で有効化されるわけではない⁠）⁠。既存サイトについては、ユーザーが明示的にmanaged robots.txtを有効化した場合のみ、Cloudflareの管理ディレクティブ（AIクローラー向けのDisallow等の記述）がrobots.txtの先頭に標準で自動追加される仕組みになるという。なお、AIクローラーの定義やブロック対象リストはCloudflareが随時アップデートし、ユーザーは自分で管理する必要はない。また従来型検索クローラーはmanaged robots.txt標準で引き続き許可されるため、検索流入には影響しない。

もう一つ追加されたものとして、広告が表示されているページのみAIクローラーを自動的にブロックする機能がある。ページ内の広告コードや外部リソース、CSPレポートなどを解析し、広告付きページだけを対象にAIクローラーのアクセスを制限できるため、広告収益を守りつつ柔軟な運用が可能となる。

Control content use for AI training with Cloudflare’s managed robots.txt and blocking for monetized content - Cloudflare Blog

さらに、「⁠Pay per crawl」と呼ばれる仕組みを導入することを案内した（現時点ではプライベートベータ⁠）⁠。これはAIクローラーがコンテンツ取得ごとに料金を支払う有料アクセスの仕組みであり、Cloudflareが認証・課金・配信を仲介する。

Introducing pay per crawl: enabling content owners to charge AI crawlers for access - Cloudflare Blog

たとえばAIクローラーが有料ページにアクセスする場合、まず運営者はEd25519鍵ペアを生成し、JWK形式の公開鍵をディレクトリとしてインターネット上に公開する。次に、その公開鍵ディレクトリのURLとUser-Agent情報をCloudflareに登録する。以降、クローラーはすべてのリクエストにSignature-Agent、Signature-Input、Signatureヘッダーを付与し、署名付きで送信する必要がある。

たとえば、署名付きリクエストの例は以下のとおり。

GET /example.html
Signature-Agent: "https://signature-agent.example.com"
Signature-Input: sig2=("@authority" "signature-agent")
 ;created=1735689600
 ;keyid="poqkLGiymh_W0uP6PZFw-dvez3QJT5SolqXBCW38r0U"
 ;alg="ed25519"
 ;expires=1735693200
 ;nonce="e8N7S2MFd/qrd6T2R3tdfAuuANngKI7LFtKYI/vowzk4lAZYadIX6wW25MwG7DCT9RUKAJ0qVkU0mEeLElW1qg=="
 ;tag="web-bot-auth"
Signature: sig2=:jdq0SqOwHdyHr9+r5jw3iYZH6aNGKijYp/EstF4RQTQdi5N5YYKrD+mCT1HA1nZDsi6nJKuHxUi/5Syp3rLWBA==:

有料コンテンツへアクセスする方法は2つある。

1つは、通常のリクエストで有料ページにアクセスする場合である。その場合にCloudflareは、HTTP 402 Payment Requiredとcrawler-priceヘッダーで価格を返す。

HTTP/1.1 402 Payment Required
crawler-price: USD XX.XX

AIクローラー側が支払いに同意する場合は、crawler-exact-priceヘッダーを付与して再リクエストする。

GET /example.html
crawler-exact-price: USD XX.XX

もう1つは、AIクローラーが、最初のリクエスト時にcrawler-max-priceヘッダーで支払上限額を宣言することもできる。

GET /example.html
crawler-max-price: USD XX.XX

この場合に設定価格が上限以下であれば、CloudflareはHTTP 200 OKとcrawler-chargedヘッダーで課金額を返し、コンテンツを配信する。

HTTP/1.1 200 OK
crawler-charged: USD XX.XX
server: cloudflare

もし設定価格の上限を超えているときには、HTTP 402 Payment Requiredで価格を提示する。

ユーザーへの支払い処理については、Cloudflareが各リクエストの課金イベントを記録・精算した上で、ユーザーのCloudflareアカウントに収益を還元する仕組みとなっている。

Cloudflareはこれらの機能を通じて、また今後の機能拡張を通じて、AIクローラーによる無断利用からコンテンツの権利を守り、正当な対価を得られる新たなエコシステムの構築を目指すことを表明している。

コラム⁠：ウェブコンテンツのAI利用制御の最新動向「Content Signals」

本稿と関連して、Nanda Syahrasyad氏は2025年7月2日、ウェブサイト運営者が自サイトのコンテンツに対する検索インデックスやAI学習など、AIクローラーによる利用方法を制御・宣言できる新たな枠組みを紹介したサイト「Content Signals」を案内している。

Content Signals

went minimalist for Cloudflare's latest microsite https://t.co/C3FGqi19XU :) pic.twitter.com/HjA0z9Lkql
— nanda (@nandafyi) July 1, 2025

この仕組みは、IETFのAI Preferences Working Groupが提案する新しいドラフト群[2][3]に基づいたもので、ウェブサイト管理者が自らのコンテンツに対する自動利用の可否を柔軟に指定できる新しい方法を提供する。

なお、Content Signalsという名称はIETFドラフトに記述されているわけではなく、これらのドラフトで規定されているシグナル手法を便宜的に呼称したもののよう。また、IETFドラフトは標準化前の提案段階であり、現時点ではAIクローラーが対応しているわけではないことに注意したい。

Content Signalsでは、以下のカテゴリごとに「許可（y⁠）⁠」⁠「⁠禁止（n⁠）⁠」を設定することを目的としている。

tdm（Text and Data Mining）: テキストととデータマイニング
- ai（AI Training）: 機械学習モデルのトレーニング
  - genai（Generative AI Training）: 生成AIモデルのトレーニング
- search（Search）: 検索インデックス構築やサマリ生成
- inference（AI Inference）: 学習済みモデルへの入力処理

このカテゴリは上記のとおり、階層構造を取っている。そのため、もし上位のカテゴリ（親）で許可・禁止を指定し、下位カテゴリ（子）の記述がない場合には、親の設定が暗黙に継承される仕様となっている。

明示的な許可（y）または禁止（n）が設定されていないカテゴリは「不明（未表明⁠）⁠」⁠（⁠unknown（no preference⁠）⁠）となる。IETFドラフトでは未表明の場合の扱いについては規定しておらず、各クローラー等の実装側のデフォルトポリシーが適用されることになる（親のカテゴリの設定がされている場合には継承される⁠）⁠。

Content Signalsの「Generate Your Own」機能では、以下5種類のポリシーが記述されたrobots.txtの文面を自動生成できる。

Disallow All Crawlers（すべてのクローラーをブロック）: 全カテゴリを禁止し、あらゆる自動アクセスを防止する。
Allow Search Only（検索のみ許可）: searchのみ許可し、その他のAI利用（tdm, inference, ai, genai）を禁止する。
Allow Search & Inference（検索＆推論を許可）: searchとinferenceを許可し、トレーニング関連（tdm, ai, genai）は禁止する。
Allow Training for Generative AI（生成AIトレーニングを許可）: genaiのみ許可し、その他（tdm, ai, search, inference）は禁止する。
Allow Everything（すべて許可）: search, inference, ai, genai, tdmの全カテゴリを許可する。

さらに手動で細かく記述することで、特定のユーザーエージェントのみ検索を許可する設定や、/aboutページのみ訓練を許可し、/blogは検索限定にするといった細かな制御が可能となる。

またContent Signalsは、robots.txtではなく、HTTPのレスポンスヘッダーにも含められる。

HTTP/1.1 200 OK
Content-Type: text/html; charset=utf-8
Content-Usage: tdm=n, search=y

<!DOCTYPE html>

なお、このIETFドラフトにおいて、robots.txtは24時間までキャッシュ可能で、最大500KiBのテキストまでを許容するという制約を設けている。