Cloudflare、AIスタートアップが数百万のサイトで「ステルスクローリング行為」を行ったと非難
出版

Cloudflareは、Perplexityがステルスクローラーを使用してサイトの制限を回避していると非難しており、AI企業がWebコンテンツにアクセスする方法について新たな懸念を引き起こしている。

Cloudflareは、AIスタートアップ企業Perplexityがステルスクローラーを使用してウェブサイトの制限を回避し、インターネットクローリングの規範に違反してコンテンツにアクセスしていると非難している。
1 ManageEngine Log360
企業規模
企業規模ごとの従業員数
マイクロ(0~49)、スモール(50~249)、ミディアム(250~999)、ラージ(1,000~4,999)、エンタープライズ(5,000以上)
小規模企業(従業員数0~49名)、小規模企業(従業員数50~249名)、中規模企業(従業員数250~999名)、大規模企業(従業員数1,000~4,999名)、エンタープライズ企業(従業員数5,000名以上) 小規模企業、小規模企業、中規模企業、大規模企業、エンタープライズ企業
特徴
アクティビティ監視、ブラックリスト、ダッシュボードなど
Cloudflareは最近のブログ投稿で、Perplexityが従来の防御をすり抜けて検出を回避するために設計された、未申告のボットを展開したと主張しています。同社によると、この活動は数百万件もの自動リクエストに及び、対策の更新が行われたとのことです。
プライベートドメインへの不正アクセス
Cloudflareによると、同社は、同社の公式クローラーをブロックしたにもかかわらず、Perplexityの検索結果に自分のコンテンツが表示され続けているというウェブサイト運営者からの報告を受け、Perplexityの調査を開始した。この主張を検証するため、Cloudflareは新たに登録された検出不可能なドメインを作成し、すべてのボットのアクセスを拒否するように設定した。
Cloudflareによると、これらの保護措置にもかかわらず、Perplexityは制限されたテストサイトから特定のコンテンツを取得し、表示することができていたという。同社は、Perplexityがrobots.txtディレクティブとウェブアプリケーションファイアウォール(WAF)ルールの両方を回避したと主張している。
ブラウザを装ったボット
Cloudflareによると、コンテンツへのアクセスは、Perplexityに属しているとは特定されていない未公開のボットによって行われたとのことです。これらのクローラーは、macOS版Chromeなどの一般的なユーザーエージェントを模倣することで、通常のブラウザを装っていたと報告されています。
トラフィックは、Perplexity が記録した範囲外の IP アドレスからも発信されていました。Cloudflare によると、ボットは検出とブロックを回避するために、異なる IP アドレスを切り替え、自律システム番号(ASN)さえ変更していたとのことです。
Cloudflareは、毎日数百万件ものステルスリクエストが数万のドメインにまたがってPerplexityに起因していると主張しています。同社は、ネットワーク信号と機械学習を用いて、これらのアクティビティを特定できたと主張しています。
Perplexityのウェブクローラー
Perplexityは、2つのボットを使用していると述べています。1つは検索インデックス作成用、もう1つはユーザーの質問に応じてコンテンツを取得するためです。どちらも宣言されたユーザーエージェントの下で動作し、公開されたIPアドレス範囲を尊重し、AIモデルのトレーニングには使用されていません。
これらのクローラーについては Perplexity の Web サイトに記載されていますが、Cloudflare の主張は、同社が公式に説明している範囲外の、申告されていないソースから来るトラフィックに集中しています。
Perplexityのコンテンツアクセス方法に関する懸念は目新しいものではない。2024年には、同社が非公開IPと外部クロールツールを利用して、ボットをブロックしたウェブサイトをスクレイピングしているとの複数の報道があった。Amazonはその後、これがAWSの利用規約に違反していないか調査中であることを確認した。
さらに最近では、BBC は、Perplexity が許可なくコンテンツを複製し、同社が宣言したボットに課していた robots.txt の制限を回避したとして、訴訟文書を送付した。
ただの売り込みですか?
PerplexityはTechCrunch宛てのメールでCloudflareの主張に反論した。広報担当のジェシー・ドワイヤー氏は、Cloudflareのブログ記事を「売り込み」と呼び、引用されたスクリーンショットではコンテンツへのアクセスは確認されていないと述べた。さらに、報告書で名指しされているボットは同社が運営しているものではないと付け加えた。
その他のサイバーセキュリティのニュースでは、AI エージェントが内部者のセキュリティ脅威の盲点を作り出しています。

リズ・ティコン
リズ・ティコンは、テクノロジー、ソフトウェア、ニュースの分野で10年以上の経験を持つスタッフライターです。Datamation、Enterprise Networking Planet、TechnologyAdvice.comなどで、AI、サイバーセキュリティ、データ、そして様々なソフトウェア製品に関する記事を執筆しており、国際的なクライアントのためにゴーストライターとしても活動しています。