Debian、LLMスクレイピング攻撃でCIデータの公開閲覧を制限

生成AIの普及と進化はサイバー攻撃のスタイルにも急激な変化をもたらしている。そのひとつがAI/LLMによるWebサイトのスクレイピングだ。従来からボットやクローラーを使ってWebサイトから自動的に情報を収集する行為はひろく行われていたが、AI/LLMによるスクレイピングは「HTMLの意味を理解して情報を抽出する」「⁠CAPTHA画面の文言を理解できる」「⁠取得データの要約や分類、構造化が可能」「⁠エージェントによる自律実行が可能」など既存のボットよりはるかにインテリジェントで人間に近い行為が可能となるため、コンテンツの不正使用や個人情報の特定、公開情報をベースにした機密情報の推測といった新たな脅威につながりやすいといわれている。また、人間による定期的なメンテナンスが必要なボットと異なり、AI/LLMによるスクレイピングは自律的な行動を取れるため、サイト側の防御策が効きにくいという点も厄介だ。

開発に関する多くの情報をWebサイト上で公開しているオープンソースプロジェクトもまた、このLLMスクレイピングのターゲットになりやすい。2月5日、DebianのプロジェクトリーダーであるPaul GeversはDebian開発者向けのメーリングリストでDebianのCI（継続的インテグレーション）データページへのアクセスを制限したことを明らかにした。理由は「あらゆる場所のデータスクレイパーからのあくなき欲求⁠」⁠、つまり止めても止めても復活する膨大な量とスピードのLLMスクレイピング攻撃に対処することが難しくなったためだ。

今回のCIデータへのアクセス制限は2つのパートから構成されている。1つはテストログファイルへの直接リンクを除くすべてのDebian CIデータページの閲覧にユーザ認証が必要になったこと、もう1つは不正なアクセスパターンを示すクライアントに対して、不正アクセスや攻撃をブロックするツール「fail2ban」ベースのファイアウォールを適用するというものだ。後者のほうは実際には何度か正当なDebian貢献者をブロックしてしまったことから、その都度適用レベルが変更されてきたが、現在では「スクレイパーをブロックしつつも実際のユーザをブロックしないという良好なバランス」が維持できているという。

オープンソースプロジェクトに対するサイバー攻撃はこれまでもさまざまなパターンがあったが、今回のLLMスクレイピングに限らず、AI/LLMによってもたらされる脅威は明らかにこれまでの攻撃とは性質を異にする。今後も増えるであろう、既存の常識が通用しないAIからの攻撃にどう向き合っていくのか、コミュニティにとっては頭の痛い問題となりそうだ。