DEF CON ジェネレーティブAIハッキングチャレンジで最先端のセキュリティ脆弱性を探る

DEF CON ジェネレーティブAIハッキングチャレンジで最先端のセキュリティ脆弱性を探る
生成 AI とサイバーセキュリティのコンセプト。
画像: PB Studio Photo/Adobe Stock

OpenAI、Google、Metaをはじめとする多くの企業が、8月12日の週末にラスベガスで開催されたハッカーカンファレンス「DEF CON」で、大規模言語モデルのテストを行いました。その結果、新たな情報コーパスが作成され、ホワイトハウス科学技術政策局と連邦議会AIコーカスと共有されました。AI Village、SeedAI、Humane Intelligenceが主催するGenerative Red Team Challengeは、生成AIがどのように悪用される可能性があるのか​​、そしてそれを保護するためにどのような対策を講じる必要があるのか​​を、これまで以上に明確に示しています。

8月29日、コンテスト主催者は優勝者を発表しました。スタンフォード大学の学生、Cody “cody3” Ho氏、カリフォルニア州バークレーのAlex Gray氏、そしてシアトル出身でユーザー名「energy-ultracode」を使い、姓を公表したくないKumar氏です。コンテストは独立した審査員団によって採点されました。優勝者3名には、NVIDIA RTX A6000 GPUがそれぞれ1台ずつ贈られました。

このチャレンジは、この種のイベントとしては最大規模であり、多くの学生が最先端のハッキングに参入できる機会となるでしょう。

ジャンプ先:

  • ジェネレーティブ レッド チーム チャレンジとは何ですか?
  • ジェネレーティブレッドチームチャレンジはAIセキュリティポリシーに影響を与える可能性がある
  • LLM にはどのような脆弱性がある可能性がありますか?
  • LLMの脆弱性を防ぐ方法

ジェネレーティブ レッド チーム チャレンジとは何ですか?

ジェネレーティブ・レッドチーム・チャレンジでは、ハッカーたちはジェネレーティブAIに、本来行うべきではないこと、つまり個人情報や危険な情報を提供することを強制的に実行させられました。課題には、クレジットカード情報の発見や、誰かをストーキングする方法の習得などが含まれていました。

2,244人のハッカーグループが参加し、それぞれ50分間の枠内で、事前に用意された選択肢からランダムに選ばれた大規模言語モデルをハッキングしました。テストに使用された大規模言語モデルは、Anthropic、Cohere、Google、Hugging Face、Meta、NVIDIA、OpenAI、Stabilityによって構築されました。Scale AIはテストおよび評価システムを開発しました。

参加者はイベント期間中、21種類のテストで17,469件の会話を行い、164,208件のメッセージを送信しました。参加者はセキュリティ保護されたGoogle Chromebookを使用していました。21種類の課題には、法学修士(LLM)に差別的な発言をさせたり、数学の問題を解かせたり、偽のランドマークを作ったり、政治的な出来事や政治家に関する虚偽の情報を作成させたりすることが含まれていました。

参照:Black Hat 2023では、元ホワイトハウスのサイバーセキュリティ専門家などが、セキュリティにおけるAIのメリットとデメリットについて意見を述べました。(TechRepublic)

「これらのモデルに伴う多様な問題は、より多くの人々がレッドチーム演習を実施し、評価する方法を理解するまで解決されないでしょう」と、AI Villageの創設者であるスヴェン・キャッテル氏はプレスリリースで述べています。「バグ報奨金制度、ライブハッキングイベント、その他セキュリティに関するコミュニティの標準的な取り組みは、機械学習モデルベースのシステム向けに修正可能です。」

生成AIをすべての人の利益のために活用する

「ブラック・テック・ストリートは、歴史あるグリーンウッド(オクラホマ州タルサ)の黒人および褐色人種の住民60人以上をDEF CONに導き、すべての人々にとって公平で責任ある、そしてアクセスしやすいAIの青写真を確立するための第一歩を踏み出しました」と、イノベーション経済開発組織ブラック・テック・ストリートの創設者兼エグゼクティブディレクターであるタイランス・ビリングスリー2世氏はプレスリリースで述べています。「AIは人類がこれまでに生み出した中で最も影響力のあるテクノロジーになるでしょう。ブラック・テック・ストリートは、このテクノロジーが社会、政治、経済における体系的な不平等を悪化させるのではなく、是正するためのツールとなることを目指しています。」

「AIは信じられないほどの可能性を秘めているが、年齢や背景を問わず、すべてのアメリカ人が、それが自分たちのコミュニティの権利、成功、安全に何を意味するのかについて発言する必要がある」と、SeedAIの創設者であり、GRTチャレンジの共同主催者であるオースティン・カーソン氏は同じプレスリリースで述べた。

ジェネレーティブレッドチームチャレンジはAIセキュリティポリシーに影響を与える可能性がある

この挑戦はホワイトハウスの科学技術政策局に直接影響を及ぼす可能性があり、局長のアラティ・プラバカール氏は、このイベントの結果に基づいて大統領令を交渉のテーブルに載せるよう取り組んでいる。

AIビレッジチームは、チャレンジの結果を使って9月に国連でプレゼンテーションを行う予定であると、AI政策・コンサルティング会社ヒューメイン・インテリジェンスの共同設立者であり、AIビレッジの主催者の一人でもあるルマン・チョウドリー氏はAxiosに語った。

このプレゼンテーションは、Black Hat 2023カンファレンスで発表されたDARPAプロジェクト「AIサイバーチャレンジ」など、AIの安全性に関する産業界と政府の継続的な協力の流れの一環です。このプロジェクトでは、AIのセキュリティ問題を解決するためのAI駆動型ツールの開発を参加者に呼びかけています。

LLM にはどのような脆弱性がある可能性がありますか?

DEF CON が始まる前に、AI Village のコンサルタント Gavin Klondike 氏は、LLM を通じてセキュリティ侵害を起こそうとする人がおそらく発見するであろう 7 つの脆弱性についてプレビューしました。

  • 速やかな注入。
  • LLM パラメータを変更します。
  • サードパーティのサイトに送信される機密情報を入力します。
  • LLM が機密情報をフィルタリングできない。
  • 意図しないコード実行につながる出力。
  • サーバー側の出力は LLM に直接フィードバックされます。
  • LLM には機密情報に関するガードレールが欠けています。

「LLMは、ユーザーからの入力だけでなく、LLMの出力も信頼できないと見なすべきという点で独特です」と彼はブログ投稿で指摘した。企業はこの脆弱性リストを活用して、潜在的な問題を監視できる。

さらに、「何が脆弱性とみなされ、LLM の運用方法の特徴とみなされるかについては、多少の議論がありました」とクロンダイク氏は述べています。

これらの機能は、セキュリティ研究者が別の種類のシステムを評価している場合、バグのように見えるかもしれないと彼は述べた。例えば、外部エンドポイントは双方向からの攻撃ベクトルとなる可能性がある。ユーザーが悪意のあるコマンドを入力したり、LLMが安全でない方法で実行されるコードを返す可能性がある。AIが以前の入力を参照できるように会話を保存する必要があり、ユーザーのプライバシーが危険にさらされる可能性がある。

AIの幻覚、あるいは虚偽は脆弱性とはみなされないとクロンダイク氏は指摘した。AIの幻覚は事実誤認ではあるものの、システムにとって危険ではない。

LLMの脆弱性を防ぐ方法

LLM はまだ研究段階ですが、研究機関や規制当局は LLM に関する安全ガイドラインの作成に迅速に取り組んでいます。

NVIDIAのソフトウェアセキュリティ担当副社長、ダニエル・ローラー氏はDEF CONに出席し、参加したハッカーたちがLLMについて、まるでそれぞれのブランドに個性があるかのように語っていたことに気づいた。擬人化はさておき、組織が選択するモデルは重要だと、ローラー氏はTechRepublicのインタビューで述べた。

「適切なタスクに適切なモデルを選択することが非常に重要です」と彼は述べた。例えば、ChatGPTはインターネット上で見つかる疑わしいコンテンツの一部を取り込む可能性がある。しかし、疑わしいコンテンツの分析を含むデータサイエンスプロジェクトに取り組んでいる場合、そのようなコンテンツを検索できるLLMシステムは貴重なツールとなる可能性がある。

企業は、関連情報のみを使用する、よりカスタマイズされたシステムを求めるようになるでしょう。「目指すシステムやアプリケーションの目的に合わせて設計する必要があります」とローラー氏は言います。

企業での使用を目的として LLM システムをセキュリティ保護するためのその他の一般的な提案は次のとおりです。

  • LLM の機密データへのアクセスを制限します。
  • LLM が収集するデータとそのデータが保存される場所、またそのデータがトレーニングに使用されるかどうかについてユーザーに説明します。
  • LLM をユーザーのように扱い、独自の認証/承認制御を使用して独自の情報へのアクセスを制御します。
  • NVIDIA の NeMo Guardrails や、NeMo Guardrails の構築に使用される言語である Colang など、AI をタスクに集中させるために利用可能なソフトウェアを使用します。

最後に、基本を飛ばさないように、とローラー氏は述べた。「LLMシステムを導入している多くの企業にとって、クラウドやクラウドベースのセキュリティには、LLMにもすぐに適用できるセキュリティ対策が数多く存在します。しかし、LLM導入を急ぐあまり、これらの対策が見落とされてしまうケースもあります。これらのステップを飛ばさないでください。クラウドの活用方法は誰もが知っています。これらの基本的な対策を講じてLLMシステムを保護すれば、多くの一般的な課題を克服する大きな一歩となるでしょう。」

注: この記事は、DEF CON チャレンジの優勝者と参加者数を反映するように更新されました。

Tagged: