トピック — 人工知能
出版

DeepSeekと清華大学の研究者らは、2つの技術を組み合わせることで、コンピューター推論技術を用いた大規模言語モデルが生成する回答の質が向上すると述べている。

AI企業DeepSeekと清華大学の研究者らは、大規模言語モデル(LLM)における「推論」を強化する新しい技術を発表した。
推論能力は、最高性能の生成型AIシステムの構築競争において、重要なベンチマークとして浮上しています。中国と米国は、最も強力で実用的なモデルの開発をめぐって激しい競争を繰り広げています。スタンフォード大学が4月に発表した報告書によると、中国の法学修士課程(LLM)は米国の法学修士課程との差を急速に縮めています。2024年には、中国が生み出した注目すべきAIモデルの数は15個であるのに対し、米国は40個にとどまりますが、特許数と学術論文数では中国がリードしています。
DeepSeekの新しい技術とは何ですか?
DeepSeekの研究者たちは、「ジェネラリスト報酬モデリングのための推論時間スケーリング」と題した論文を、コーネル大学の科学論文アーカイブであるarXivに掲載しました。arXivに掲載された論文は必ずしも査読済みではないことにご注意ください。
論文では、研究者らは、生成報酬モデリングと自己原理に基づく批評チューニングという 2 つの AI トレーニング手法の組み合わせについて詳しく説明しています。
「本研究では、一般的なクエリに対するより多くの推論計算で報酬モデリング(RM)を改善する方法、つまりジェネラリストRMの推論時間のスケーラビリティ、さらに、適切な学習方法でパフォーマンス計算スケーリングの有効性を改善する方法を調査します」と研究者らは書いている。
参照:DDoS攻撃は今や地政学的紛争の重要な武器となっている、とNETSCOUTが警告
報酬モデリングとは、AIをユーザーの嗜好により近づけるように訓練するプロセスです。Self-Principled Critique Tuning(自己原理に基づく批評チューニング)では、モデルは推論中に独自の批評、つまり「原理」を生成し、回答を微調整します。この統合アプローチは、LLMがより関連性の高い回答をより迅速に提供できるようにするための取り組みを継続するものです。
「経験的に、SPCT は GRM の品質とスケーラビリティを大幅に向上させ、さまざまな RM ベンチマークにおいて、深刻な偏りなく既存の方法やモデルを上回り、トレーニング時間のスケーリングと比較して優れたパフォーマンスを実現できることが示されています」と研究者らは記しています。
彼らはこの方法でトレーニングされたモデルを DeepSeek-GRM と呼びました。
「DeepSeek-GRMはまだいくつかのタスクで課題に直面しているが、これはジェネラリスト報酬システムにおける今後の取り組みによって解決できると考えている」と研究者らは記している。
DeepSeek の今後の展開は?
DeepSeekは、OpenAI o1のような主要な推論重視モデルに匹敵するR1モデルで大きな話題を呼んでいます。2つ目のモデルであるDeepSeek-R2は5月にリリースされると噂されています。同社はまた、3月下旬にアップデートされた推論モデルであるDeepSeek-V3-0324も発表しました。
論文によれば、新しい GRM-SPCT 法で構築されたモデルはオープン検索される予定だが、リリース日は明記されていない。
こちらもご覧ください
- DeepSeekチャットボットがApp StoreのリーダーボードでOpenAIに勝利
- DeepSeekがチャット履歴を公開する公開データベースへのアクセスをロックダウン
- EコマースにおけるAI:成長と自動化のための究極ガイド
- ガートナー:AI世代は「幻滅期」にあるものの、2028年まで支出は増加する見込み
- Google DeepMind、超知能モデルを監視するAI「モニター」を提案
- 人工知能:さらに読むべき記事

ミーガン・クラウス
メーガン・クラウスは、B2Bニュースおよび特集記事の執筆で10年の経験を有し、Manufacturing.netのライター、そして後に編集者として活躍しました。彼女のニュース記事や特集記事は、Military & Aerospace Electronics、Fierce Wireless、TechRepublic、eWeekに掲載されています。また、Security Intelligenceではサイバーセキュリティに関するニュースや特集記事の編集も担当しました。フェアリー・ディキンソン大学で英文学の学位を取得し、クリエイティブライティングを副専攻しました。