
新たな調査によると、テクノロジー企業による継続的な安全性向上にもかかわらず、主要なAIチャットボットは依然として、違法行為の指示を含む有害なコンテンツを生成するように操作される可能性があることが明らかになりました。この調査結果は、これらのシステムがいかに容易に悪用される可能性があるか、そして開発者がリスクへの対応をいかに遅らせているかについて、緊急の懸念を提起しています。
イスラエルのベン=グリオン・ネゲブ大学の研究者らは、ChatGPT、Gemini、Claudeといった最先端のシステムを含む今日のAIチャットボットの多くが、特定のプロンプトベースの攻撃によって操作され、有害なコンテンツを生成する可能性があることを明らかにした。研究者らは、この脅威は「差し迫った、具体的で、深刻な懸念事項」であると述べた。
AIにおけるジェイルブレイクとは、巧妙に作成されたプロンプトを用いてチャットボットを騙し、安全ルールを無視させることです。研究者たちは、この手法が複数の主要なAIプラットフォームで有効であることを発見しました。
研究によると、この方法を使用してモデルを悪用すると、爆弾製造、ハッキング、インサイダー取引、麻薬製造のガイドを含む、広範囲にわたる危険なクエリの出力を生成できるようになるという。
ダークLLMの台頭
ChatGPTのような大規模言語モデルは、膨大なインターネットデータで学習されています。企業は危険なコンテンツをフィルタリングしようとしていますが、中には有害な情報も漏れてしまうものもあります。さらに悪いことに、ハッカーは安全対策を意図的に排除することを目的としてAIモデルを作成または改変しています。
ガーディアン紙の報道によると、WormGPTやFraudGPTといった不正AIの一部は、「倫理的な制限がない」ツールとしてオンラインで公然と販売されている。これらのいわゆるダークLLMは、詐欺、ハッキング、さらには金融犯罪を支援するために設計されている。
研究者らは、かつては高度な技術を持つ犯罪者や国家が支援するハッカーに限定されていたツールが、まもなく基本的なハードウェアとインターネット接続があれば誰でも利用できるようになる可能性があると警告している。
参照:GhostGPT:サイバー犯罪者がマルウェア作成や詐欺に利用する無修正チャットボット
テクノロジー企業の弱い対応
調査によると、このユニバーサルジェイルブレイク手法は、Redditで最初に公開されてから数ヶ月が経過したにもかかわらず、複数の人気機種のセキュリティバリアを突破することに成功した。これは、AI企業の脅威への対応がいかに遅いか、あるいは不十分であるかという喫緊の懸念を提起する。
研究者らは公式チャンネルを通じて大手AI開発会社に通知しようと努力したが、反応は「期待外れ」だったとガーディアン紙は指摘した。
著者らによると、一部の企業は情報開示に応じず、また他の企業は報告された脆弱性が自社のセキュリティまたはバグバウンティの枠組みの基準を満たしていないと主張した。これにより、たとえスキルのない個人であっても、悪用される可能性が残されている。
オープンソースモデルはリスク管理を困難にする
さらに懸念されるのは、AIモデルが一度改変されオンラインで共有されると、元に戻すことができないことです。アプリやウェブサイトとは異なり、オープンソースモデルは保存、コピー、再配布を無制限に行うことができます。
研究者たちは、規制やパッチを適用したとしても、ダウンロードしてローカルに保存されたAIモデルを封じ込めることはほぼ不可能になると強調しています。さらに悪いことに、侵害されたモデルが他のモデルを操作するために利用される可能性があり、脅威が倍増する可能性があります。
今何をすべきか
増大する脅威を封じ込めるために、研究者らは次のような緊急措置を概説した。
- 厳選されたトレーニング データ:モデルは、有害なコンテンツが最初から除外された、クリーンで安全なデータのみでトレーニングする必要があります。
- AI ファイアウォール:ウイルス対策ソフトウェアがコンピューターを保護するのと同様に、ミドルウェアは有害なプロンプトや出力をフィルターする必要があります。
- 機械学習による学習のやり直し:新しいテクノロジーにより、AI は導入後でも有害な情報を「忘れる」ことができるようになる。
- 継続的なレッドチーム演習:継続的な敵対的テストと公開バグ報奨金制度は、脅威に先手を打つための鍵となります。
- 国民の認識:政府と教育者は、ダーク LLM を無許可の武器のように扱い、アクセスを規制し、認識を広める必要があります。
研究者らは、断固たる措置を取らなければ、AI システムは犯罪行為を強力に助長する存在となり、数回のキー操作で危険な知識を得られる可能性があると警告している。