Cloudflareは2024年7月3日、AI学習用のデータを収集するAIボットやAIスクレーパー、AIクローラーのアクセスをワンクリックの設定でブロックできる機能を実装したことを発表した。
Cloudflareは2023年に、robots.
この問題を解決するために、すべてのAIボットをワンクリックでブロックする新しい機能が追加された。これは、無料プランを含むすべてのCloudflareユーザが利用できる。有効にするにはCloudflareダッシュボードの
これまでは、ライセンスのないコンテンツを使用してモデルをトレーニングしたり、Webサイトのデータを使用してRAGアプリケーションの推論を実行したりするような、悪質なAIボットのアクセスをすべて遮断することはできなかった。新しいブロック機能では、モデルトレーニングのためにWebを広範囲にスクレイピングしていると特定された不正なボットの新しいフィンガープリントが見つかると挙動がスコアリングされ、スコア値が一定値を越えたものをAIボットと判断してブロック情報が自動的に更新される。
この機能をアクティブにしてもブロックされないAIボットを発見した場合、Enterprise Bot Managementに登録されているユーザーは、不正動作に気付いたトラフィックのセグメントを選択するだけで、Bot Analytics経由でFalse Negative Feedback Loopレポートを送信できる。また、Cloudflareの顧客であれば誰でも、AIボットが許可なくサイトをスクレイピングしているという報告を送信できるGoogleフォームも用意されている。
アクセス数上位のAIクローラーは?
Cloudflareは今回の発表とともに、AIボットのアクセス傾向の調査結果についてもコメントしている。それによると、同社のユーザ―サイトへのアクセス数の多いAIクローラーは以下の4種であるという。
- 1位:Bytespider
- TikTokで知られる中国企業ByteDanceのクローラー。LLM
「Doubao」 のトレーニング用と言われている。 - 2位:Amazonbot
- Alexaの質問応答のコンテンツをインデックスするために使用されているとされる。
- 3位:ClaudeBot
- Claudeチャットボットのトレーニングに使用される。最近リクエスト量が増加。
- 4位:GPTBot
- OpenAIが管理。ChatGPTなどのAI駆動型製品の基盤となるLLMのトレーニングデータを収集。