
中国のAI「DeepSeek」は、米国政府支援による評価で、そのモデルが安全性、精度、セキュリティ基準で苦戦していることが判明し、批判を浴びている。この調査では、DeepSeekは米国の競合製品に比べてハッキングに対して脆弱で、動作が遅く、信頼性が低いと警告されている。
米国立標準技術研究所(NIST)のAI標準イノベーションセンター(CAISI)は、脆弱性を指摘する調査結果を発表しました。ハワード・ラトニック米国商務長官は、DeepSeekのような外国のAIへの依存は「危険で近視眼的だ」と述べました。
DeepSeekの評価方法とテスト内容
CAISIの専門家は、DeepSeekモデルV3.1、R1、R1-0528を、OpenAIのGPT-5、GPT-5-mini、gpt-oss、およびAnthropicのOpus 4という4つの米国システムに対してテストしました。AIモデルは、ベンダーAPIではなく、ローカルで実行された重みに基づいて評価されたため、結果はベースシステム自体を反映しています。
評価は安全性、工学、科学、数学を含む19のベンチマークに及びましたが、最も大きな差はソフトウェア工学とサイバーセキュリティのタスクで見られました。CAISIは、実用的な信頼性、速度、コストを測定するために、エンドツーエンドのタスクも実行しました。
DeepSeekモデルは脱獄によって壊れ、有害な回答を渡す
公開されている脱獄プロンプトを使用したDeepSeekは、テストの95~100%でフィッシング、マルウェア対策、その他の制限された用途に関する詳細な出力を生成しました。米国のモデルでは、同様の有害な要求に応じたのはわずか5~12%でした。
エージェントハイジャックテストでも同様の結果が得られました。DeepSeek R1はテストの37%で二要素認証コードの窃取を試みましたが、米国モデルではわずか4%でした。研究者らは、フィッシング攻撃やマルウェア実行のシミュレーションでも同様の差が見られると報告しています。
エンジニアリングと技術タスクにおけるパフォーマンスの大きなギャップ
Cybenchでは、DeepSeek V3.1のスコアは40%、OpenAIのGPT-5のスコアは74%でした。SWE-bench Verifiedでは、GPT-5などの米国製システムが63~67%に達したのに対し、DeepSeekは55%でした。
評価者は、複雑で複数ステップのジョブでは精度にばらつきがあり、不完全なコードや欠陥のあるコードがより多く見られるという点も指摘しました。64,000トークンのコンテキストウィンドウと平均1.7秒の応答時間(米国のリーダーは1.2秒)は、より長いワークフローをさらに制限しました。
紙の上では安いが、実際の使用ではそうではない
DeepSeekの定価では、総費用は削減されませんでした。エンドツーエンドの実行では、GPT-5-miniはDeepSeek V3.1と同等かそれ以上の性能を発揮しましたが、再試行、ツール呼び出し、完了を考慮に入れると、平均で約35%のコスト削減に成功しました。
コンテキストとレイテンシに対する同じ制限により、パス数が増え、スループットが低下し、DeepSeek の目玉であった価格上の優位性の多くが実際には失われました。
政治的に敏感な内容には検閲が適用される
CAISIは、DeepSeekが米国のモデルよりも中国政府の主張を反映する可能性が高いことを発見しました。あるデータセットでは、V3.1は英語の回答では5%、中国語の回答では12%で中国共産党の誤解を招く主張に一致していましたが、米国の回答では2~3%でした。
報告書は、政治的にデリケートなクエリに対するAIモデルのバイアスと検閲の証拠を挙げています。重み付けはローカルで実行されるため、これらの検閲パターンは外部サービスのフィルターとして適用されるのではなく、モデルに組み込まれているように見えます。
欠陥にもかかわらず採用は増加
テストで安全性と信頼性の欠陥が指摘されたにもかかわらず、DeepSeekの利用は急速に増加しています。CAISIによると、モデルのダウンロード数は1月以降1,000%以上増加しており、今年追跡されたシステムの中で最も急速に成長しているシステムの1つとなっています。
APIアクティビティも増加しています。DeepSeek V3.1はリリース後4週間でOpenRouter上で9,750万件のクエリを記録しました。これは、米国のオープンウェイトベースラインモデルが最初の1か月で記録したクエリ数よりも約25%多い数値です。
評価の背後にある使命
CAISIの評価は、ドナルド・トランプ大統領の「アメリカAI行動計画」に基づくもので、中国産の最先端AIに対する連邦政府による試験を義務付けています。このプログラムは、パフォーマンスの評価に加え、海外での導入状況を追跡し、セキュリティリスクを明らかにし、世界的な競争のバランスを測定することを目的としています。
さらに、米国のプログラムはAIの安全性と標準に関して政府と産業界の橋渡し役として機能し、米国の政府機関が技術的リーダーシップを確保するために取り組む中で、その調査結果が重要な参照点となっている。
別の開発では、ファーウェイは浙江大学と協力し、 ほぼすべての一般的な脅威をブロックし、脱獄の試みに対するより高い耐性を実現するDeepSeek-R1-Safeを開発した。