ベンチマークテストで「DeepSeek-V3-0324はQwen2.5-Maxよりも脆弱」と判明 - TechRepublic

トピック — 人工知能

出版2025年4月4日

アフィリエイトリンクまたはスポンサーシップを通じて、ベンダーから収益を得る場合があります。これにより、サイト上の商品配置が影響を受ける可能性がありますが、レビューの内容には影響しません。詳細は利用規約をご覧ください。

最新バージョンの Qwen2.5-Max はセキュリティ面では DeepSeek-V3 を上回っていますが、AI モデルは他のいくつかの分野で競合製品に遅れをとっています。

2025年1月28日にリリースされた最新の安定版では、Qwen2.5-MaxはAlibabaが開発したMixture-of-Experts（MoE）言語モデルに分類されます。他の言語モデルと同様に、Qwen2.5-Maxはテキスト生成、様々な言語の理解、高度なロジックの実行が可能です。また、最近のベンチマークによると、DeepSeek-V3-0324よりもセキュリティが高いことが示されています。

Reconを使用して脆弱性をスキャンする

Recon として知られるレッドチームおよびセキュリティ脆弱性スキャンツールを開発している Protect AI のアナリストチームは最近、自社のプラットフォームを使用して Qwen2.5-Max のセキュリティと DeepSeek-V3 のセキュリティを比較しました。

チームの評価には、次のように一部記載されています。「DeepSeek-V3-0324 は Qwen2.5-Max よりも脆弱であり、Recon は攻撃成功率 (ASR) が 25% 近く高いことが確認されました。」

Qwen2.5-Maxは競合製品よりも安全かもしれませんが、完璧というわけではありません。テストによると、このAIモデルはプロンプトインジェクション攻撃に対して最も脆弱で、Qwen2.5-Maxに対する成功したサイバー攻撃の約48%を占めています。一方、回避攻撃やジェイルブレイク攻撃は、どちらも約40%のASR（自動セキュリティレベル）と、それほど成功率が高くないことが判明しました。

DeepSeek-V3の脆弱性の暴露

Recon は包括的な攻撃ライブラリを利用して現世代の AI モデルをスキャンし、6 つの特定のカテゴリにわたって脆弱性を特定します。

回避テクニック
システムプロンプトの漏洩
プロンプトインジェクション攻撃
AI脱獄の試み
一般的な安全管理
敵対的接尾辞耐性

Reconは、サイバー攻撃のシミュレーションに加え、潜在的に有害または違法なコンテンツを生成するAIモデルの耐性も評価します。例えば、敵対的サフィックス耐性テストでは、ReconはAIモデルを操作して有害または違法なコンテンツを生成するように試みます。

Protect AI チームは、Qwen2.5-Max と DeepSeek-V3 の両方に対して Recon を実行しました。その結果、前者は、脱獄、プロンプトインジェクション、回避技術など、さまざまな攻撃において低い攻撃成功率 (ASR) を示しました。

Qwen2.5-Maxの即時インジェクション攻撃に対するASRは47%であったのに対し、DeepSeek-V3は77%と大幅に高い数値を示しました。回避技術に対するASRでは、Qwen2.5-Maxは39.4%、DeepSeek-V3は69.2%でした。両AIモデルは、他のサイバー攻撃のシミュレーションにおいても同様の成績を示しました。

DeepSeek-V3の強みを分析する

DeepSeek-V3-0324はセキュリティ上の弱点があるにもかかわらず、様々なベンチマークにおいてQwen2.5-Maxを上回っています。ASRとは異なり、これらのテストではスコアが高いほどパフォーマンスが優れていることを示しています。

	ディープシーク-V3-0324	Qwen2.5-Max
MMLUプロ	81.2	75.9
GPQAダイヤモンド	68.4	59.1
数学500	94.0	90.2
AIME 2024	59.4	39.6
ライブコードベンチ	49.2	39.2

これらのベンチマークによると、DeepSeek-V3-0324 の強みには、一般的な言語理解 (MMLU-Pro)、生物学、物理学、化学などの高度なトピック (GPQA Diamond)、数学 (MATH-500、医療における AI (AIME 2024)、コーディング (LiveCodeBench) などがあります。

記事をシェア

JRジョニヴァン

JR Johnivan 氏は 17 年のキャリアを持つベテランで、IT、コンピュータネットワーク、セキュリティ、クラウドコンピューティング、人材配置、人事、不動産、スポーツ、エンターテイメントなど、イノベーションとテクノロジーに関する執筆活動に力を入れています。

Office 2010 ベータ版と Google Apps アップデートの比較 - TechRepublic

GhostGPT: マルウェア作成や詐欺のための新しいチャットボット

VPSホスティングに最適なLinuxディストリビューションはどれ？ - TechRepublic

暗号通貨マイニングのせいでGPUの価格が急騰 - TechRepublic

ベンチマークテストで「DeepSeek-V3-0324はQwen2.5-Maxよりも脆弱」と判明 - TechRepublic

Reconを使用して脆弱性をスキャンする

DeepSeek-V3の脆弱性の暴露

DeepSeek-V3の強みを分析する

Reconを使用して脆弱性をスキャンする

DeepSeek-V3の脆弱性の暴露

DeepSeek-V3の強みを分析する

Related News