OpenAIの新しい安全性評価ハブがAIモデルのテストの幕を開ける

OpenAIの新しい安全性評価ハブがAIモデルのテストの幕を開ける
OpenAI の CEO サム・アルトマン氏と同社のロゴの写真。
OpenAIのCEOサム・アルトマン氏。画像:クリエイティブ・コモンズ

AIの安全性に関する議論が激化する中、OpenAIは新たに立ち上げた「安全性評価ハブ」を通じて、一般の人々をAIのプロセスに招き入れています。この取り組みは、AIモデルの安全性と透明性を高めることを目指しています。

「モデルの能力と適応性が高まるにつれて、古い方法は時代遅れになったり、意味のある違いを示すのに効果がなくなったりします(これを飽和と呼びます)。そのため、私たちは新しい手法と新たなリスクを考慮するために評価方法を定期的に更新しています」とOpenAIは新しい安全性評価ハブのページで述べています。

有害なコンテンツ

OpenAIの新しいハブは、ヘイトスピーチ、違法行為、その他の違法コンテンツを含む有害なリクエストをどれだけ適切に拒否できるかをモデル評価の対象としています。開発者は、パフォーマンスを測定するために、AIの応答を2つの異なる指標で採点する自動採点ツールを使用しています。

0 から 1 のスケールで、現在の OpenAI モデルのほとんどは、有害なプロンプトを正しく拒否することに関して 0.99 のスコアを獲得しました。GPT-4o-2024-08-16、GPT-4o-2024-05-13、および GPT-4-Turbo の 3 つのモデルのみがわずかに低いスコアを獲得しました。

しかし、無害な(無害な)プロンプトへの適切な応答に関しては、結果に大きなばらつきがありました。最も高いスコアを記録したのはOpenAI o3-miniで、スコアは0.80でした。他のモデルは0.65から0.79の範囲でした。

脱獄

場合によっては、特定のAIモデルがジェイルブレイクされる可能性があります。これは、ユーザーが意図的にAIモデルを騙し、現在の安全ポリシーに反するコンテンツを生成させようとする場合に発生します。

Safety Evaluations Hub は、最も一般的な脱獄の試みに対するモデルの耐性を評価する確立されたベンチマークである StrongReject と、人間によるレッドチームによって提供された一連の脱獄プロンプトに対して OpenAI のモデルをテストしました。

現在の AI モデルは、StrongReject で 0.23 ~ 0.85 のスコア、人間によるプロンプトで 0.90 ~ 1.00 のスコアを獲得しています。

これらのスコアは、モデルが手動で作成された脱獄に対しては比較的堅牢である一方で、標準化された自動化された攻撃に対しては依然として脆弱であることを示しています。

幻覚

現在の AI モデルは、特定の状況において幻覚を起こしたり、明らかに虚偽または無意味なコンテンツを生成したりすることが知られています。

OpenAI の Safety Evaluations Hub は、SimpleQA と PersonQA という 2 つの特定のベンチマークを使用して、モデルが質問に正しく回答するかどうか、またどのくらいの頻度で幻覚を生成するかを評価しました。

OpenAIの最新モデルは、SimpleQAを用いた場合、精度が0.09~0.59、幻覚率が0.41~0.86でした。PersonQAの精度ベンチマークでは、精度が0.17~0.70、幻覚率が0.13~0.52でした。

これらの結果は、一部のモデルは事実に基づくクエリに対して適度に良好なパフォーマンスを発揮する一方で、特に単純な質問に答える場合には、依然として不正確な情報や捏造された情報が頻繁に生成されることを示唆しています。

命令階層

ハブは、AIモデルを、命令階層で確立された優先順位の遵守状況に基づいて分析します。例えば、システムメッセージは常に開発者メッセージよりも優先され、開発者メッセージは常にユーザーメッセージよりも優先されます。

OpenAIのモデルは、システム<>ユーザー間の競合では0.50~0.85、開発者<>ユーザー間の競合では0.15~0.77、システム<>開発者間の競合では0.55~0.93のスコアを記録しました。これは、モデルが特にシステムからの優先度の高い指示を尊重する傾向がある一方で、開発者とユーザー間のメッセージ間の競合処理においてはしばしば矛盾が見られることを示しています。

参照:   TechRepublic Premiumの「AIの信頼性を維持する方法」

将来のAIモデルの安全性を確保する

OpenAIの開発者は、このデータを活用して既存モデルを微調整し、将来のモデルの構築、評価、展開方法を策定しています。安全性評価ハブは、弱点を特定し、主要なベンチマークの進捗状況を追跡することで、AI開発における説明責任と透明性の向上を推進する上で極めて重要な役割を果たします。

ユーザーにとって、このハブは OpenAI の最も強力なモデルがどのようにテストされ、改善されているかを知る貴重な窓口となり、誰もが日常的に使用する AI システムの安全性を追跡し、疑問を持ち、より深く理解できるようになります。

Tagged: