Cloudflareは2025年7月1日、同社が運用するCDNサービスにおけるAIクローラーによるウェブコンテンツの利用について、「コンテンツ作成者に報酬を支払わない限り、AIクロールをブロックできる方針」へと大きく舵を切り、その制御機能をすべてのユーザーに導入することを発表した。
この方針転換は「Content Independence Day」という題目で発表しており、AI時代におけるコンテンツ作成者の権利回復に向けた新しい取り組みであること、そして次のステップとしてAI企業と出会えるマーケットプレイスの創造をおこなっていくことを述べている。
従来の検索エンジン(Googleなど)は「コンテンツ提供と引き換えにトラフィックを還元する」という長年続いた関係性のもと、サイト運営者も何らかの価値を見出していた。しかし近年、OpenAIやAnthropicなどAI企業のクローラーは、サイトから大量のデータを取得しAIサービスで直接回答を提供する一方、元サイトへのトラフィック還元が少なくなっている。
このトラフィック還元の少なさについて、Cloudflareは調査している。AI Search Crawl/Refer Ratio on Radarによれば、2025年2025年6月19日〜26日における主要クローラーごとの「クロール数:リファラ比」の抜粋は以下のとおり[1]。
- Google、9.4:1(複数あるボットのうちGooglebotが92.7%)
- OpenAI、1,600:1(複数あるボットのうちGPTBotが94.2%)
- Anthropic、70,900:1(複数あるボットのうちClaudeBotがほぼ100%)
つまり、Googlebotは約10回クロールごとに1件のトラフィック還元があるのに対し、GPTBotやAnthropicは極端に高いクロール数にもかかわらず、ほとんどトラフィックを返していないことがわかる。
さらにCloudflareは、主要クローラーの詳細な調査結果を「From Googlebot to GPTBot: Who’s Crawling Your Site in 2025? - Cloudflare Blog」として改めて公表している。
以下の表は、2024年5月と2025年5月に観測した主要AI・検索クローラーの総クロール数シェアである(「Breakdown of top 20 AI and search web crawlers」からの上位抜粋)。
順位 |
シェア (2024/5) |
シェア (2025/5) |
クローラー名 |
クローラー概要 |
1 |
30% |
50% |
Googlebot |
Googleの従来型検索エンジンクローラー |
2 |
10% |
8.7% |
Bingbot |
MicrosoftのBing検索エンジンクローラー |
3 |
2.2% |
7.7% |
GPTBot |
OpenAIのAIモデル学習・推論用クローラー |
4 |
11.7% |
5.4% |
ClaudeBot |
AnthropicのAIモデル学習・推論用クローラー |
5 |
4.4% |
4.3% |
GoogleOther |
Googleの補助的なクローラー |
6 |
7.6% |
4.2% |
Amazonbot |
Amazonの検索・AIサービス用クローラー |
7 |
4.5% |
3.3% |
Googlebot-Image |
Google画像検索用クローラー |
8 |
22.8% |
2.9% |
Bytespider |
ByteDance(TikTok等)のAI・検索用クローラー |
9 |
2.8% |
2.2% |
Yandex |
Yandexの検索クローラー |
10 |
0.1% |
1.3% |
ChatGPT-User |
OpenAI ChatGPTユーザーによるWebアクセス |
11 |
1.9% |
1.2% |
Applebot |
AppleのSiri・Spotlight等向けクローラー |
12 |
0.3% |
0.6% |
Timpibot |
TimpibotのAI・検索用クローラー |
13 |
0.5% |
0.4% |
Baiduspider |
Baiduの検索クローラー |
14 |
<0.01% |
0.2% |
PerplexityBot |
Perplexity.aiのAI検索クローラー |
15 |
0.2% |
0.1% |
DuckDuckBot |
DuckDuckGoの検索クローラー |
Googlebotが首位(であり昨年比でシェアも拡大)しているが、AIクローラーの存在感が昨年比で急速に台頭していると、まとめられている。
また2025年6月において、Cloudflare管轄の上位10,000ドメインのうちrobots.txtが確認できたのは3,816ドメインで、そのうちの約14%がAIクローラーへのアクセスについて明示的に可否の記述をしている状況とのこと。しかし、robots.txtによるAIクローラー制御の実効性や運用方法には課題が多く、多くのサイト運営者はAIクローラー対応について模索している段階にあるとみている。
こうした状況を受け、冒頭述べたように、CloudflareはAIクローラーに対する新たな対策をおこなうことを発表した。
その一つとして、すべてのユーザーに対して「managed robots.txt」を無料で提供する。この機能を有効にすることで主要なAIクローラーへの対応をCloudflare側に任せることができ、自動的にAIクローラーを検出してブロックできるようになる。Cloudflareのネットワーク上のウェブサイトでは、今後新規にCloudflareへ導入(オンボード)する場合、managed robots.txtの有効化を推奨する方針を取るという(自動で有効化されるわけではない)。既存サイトについては、ユーザーが明示的にmanaged robots.txtを有効化した場合のみ、Cloudflareの管理ディレクティブ(AIクローラー向けのDisallow等の記述)がrobots.txtの先頭に標準で自動追加される仕組みになるという。なお、AIクローラーの定義やブロック対象リストはCloudflareが随時アップデートし、ユーザーは自分で管理する必要はない。また従来型検索クローラーはmanaged robots.txt標準で引き続き許可されるため、検索流入には影響しない。
もう一つ追加されたものとして、広告が表示されているページのみAIクローラーを自動的にブロックする機能がある。ページ内の広告コードや外部リソース、CSPレポートなどを解析し、広告付きページだけを対象にAIクローラーのアクセスを制限できるため、広告収益を守りつつ柔軟な運用が可能となる。
さらに、「Pay per crawl」と呼ばれる仕組みを導入することを案内した(現時点ではプライベートベータ)。これはAIクローラーがコンテンツ取得ごとに料金を支払う有償アクセスの仕組みであり、Cloudflareが認証・課金・配信を仲介する。
たとえばAIクローラーが有償ページにアクセスする場合、まず運営者はEd25519鍵ペアを生成し、JWK形式の公開鍵をディレクトリとしてインターネット上に公開する。次に、その公開鍵ディレクトリのURLとUser-Agent情報をCloudflareに登録する。以降、クローラーはすべてのリクエストにSignature-Agent、Signature-Input、Signatureヘッダーを付与し、署名付きで送信する必要がある。
たとえば、署名付きリクエストの例は以下のとおり。
GET /example.html
Signature-Agent: "https://signature-agent.example.com"
Signature-Input: sig2=("@authority" "signature-agent")
;created=1735689600
;keyid="poqkLGiymh_W0uP6PZFw-dvez3QJT5SolqXBCW38r0U"
;alg="ed25519"
;expires=1735693200
;nonce="e8N7S2MFd/qrd6T2R3tdfAuuANngKI7LFtKYI/vowzk4lAZYadIX6wW25MwG7DCT9RUKAJ0qVkU0mEeLElW1qg=="
;tag="web-bot-auth"
Signature: sig2=:jdq0SqOwHdyHr9+r5jw3iYZH6aNGKijYp/EstF4RQTQdi5N5YYKrD+mCT1HA1nZDsi6nJKuHxUi/5Syp3rLWBA==:
有償コンテンツへのアクセスする方法は2つある。
1つは、通常のリクエストで有償ページにアクセスする場合である。その場合にCloudflareは、HTTP 402 Payment Requiredとcrawler-priceヘッダーで価格を返す。
HTTP/1.1 402 Payment Required
crawler-price: USD XX.XX
AIクローラー側が支払いに同意する場合は、crawler-exact-priceヘッダーを付与して再リクエストする。
GET /example.html
crawler-exact-price: USD XX.XX
もう1つは、AIクローラーが、最初のリクエスト時にcrawler-max-priceヘッダーで支払上限額を宣言することもできる。
GET /example.html
crawler-max-price: USD XX.XX
この場合に設定価格が上限以下であれば、CloudflareはHTTP 200 OKとcrawler-chargedヘッダーで課金額を返し、コンテンツを配信する。
HTTP/1.1 200 OK
crawler-charged: USD XX.XX
server: cloudflare
もし設定価格の上限を超えているときには、HTTP 402 Payment Requiredで価格を提示する。
ユーザーへの支払い処理については、Cloudflareが各リクエストの課金イベントを記録・精算した上で、ユーザーのCloudflareアカウントに収益を還元する仕組みとなっている。
Cloudflareはこれらの機能を通じて、また今後の機能拡張を通じて、AIクローラーによる無断利用からコンテンツの権利を守り、正当な対価を得られる新たなエコシステムの構築を目指すことを表明している。