マイクロソフトリサーチ、新たな小型言語モデル「Phi-2」を発表

マイクロソフトリサーチ、新たな小型言語モデル「Phi-2」を発表

大規模言語モデルは数千億のパラメータに達することもありますが、Microsoft Researchは小規模言語モデルを用いて、より小規模な規模で同等の性能を達成する実験を行っています。12月12日、Microsoft Researchは自然言語とコーディングのための27億パラメータの言語モデル「Phi-2」を発表しました。Phi-2は、特定のテストにおいて、GoogleのGemini Nano 2を含む一部の大規模言語モデルよりも優れた性能を示しました。

Phi-2はAzure AI Studioモデルカタログで入手可能です。Microsoftは研究者のみの利用を想定していますが、最終的にはPhi-2が、企業が利用し、大規模なモデルに匹敵する、より小型で効率的なモデルの開発につながる可能性があります。

ジャンプ先:

  • Phi-2とは何ですか?
  • Phi-2は大型モデルよりも優れた性能を発揮している
  • 小さなモデルを大きなモデルのように動作させる方法

Phi-2とは何ですか?

Phi-2 は、一般的に人工知能として知られる他の言語モデルの研究開発に使用される言語モデルです。

Phi-2は、2023年9月にリリースされた13億パラメータの小規模言語モデルであるPhi-1の後継です。Phi-1は、モデルのPythonコード能力を評価するHumanEvalおよびMBPPベンチマークで優れたパフォーマンスを示しました。2023年11月、Microsoft ResearchはPhi-1に常識的な推論と言語理解機能を追加したPhi-1.5をリリースしました。サティア・ナデラは、2023年11月のMicrosoft IgniteでPhi-2を発表しました(図A)。

図A

Satya Nadella が Microsoft Ignite 2023 で Phi-2 を発表。
Microsoft Ignite 2023でPhi-2を発表するサティア・ナデラ氏。画像:Microsoft

「コンパクトなサイズのPhi-2は、メカニズムの解釈可能性、安全性の向上、さまざまなタスクでの実験の微調整などの探究を含む、研究者にとって理想的な遊び場です」と、マイクロソフトのシニアリサーチャーであるモジャン・ジャバヘリピ氏とマイクロソフトパートナーリサーチマネージャーのセバスチャン・ブベック氏は12月12日のブログ投稿に書いています。

参照:Windows 11 23H2にはWindows Copilotが付属していますが、デフォルトでは表示されない場合があります。AIを見つける方法はこちらです。(TechRepublic) 

「モデルをより安価で、より効率的に、そしてより容易に訓練できるようにする方法を模索しており、コミュニティ全体が恩恵を受けられるよう、私たちが学んだことを共有することが重要だと考えています」と、ブベック氏はTechRepublicへのメールで述べた。「…Phi-2の規模は、メカニズムの解釈可能性、安全性の向上、あるいは様々なタスクにおける実験の微調整など、モデル活用のための理想的な遊び場となっています。」

Phi-2はより大きな言語モデルよりも優れている

Microsoft Researchによると、Phi-2はBig Bench Hardなどの標準ベンチマークや、言語、数学、多段階推論、コーディングテストにおいて、Mistral AIの7B(70億パラメータ)モデルやLlama-2(130億パラメータ)モデルを凌駕する性能を示した。Microsoft Researchは、Googleが最近リリースしたGemini Nano 2と比較し、BBH、BoolQ、MBPP、MMLUの各テストでPhi-2が優れたパフォーマンスを発揮することを明らかにした。

小さな言語モデルを大きな言語モデルのように動作させる方法

Microsoft Researchは、トレーニング中に特定の選択を行うことで、小規模なモデルでも大規模なモデルと同等の性能を発揮できることを発見しました。Microsoft Researchが小規模な言語モデルを大規模モデルと同等の性能にする方法の一つは、「教科書レベルのデータ」を使用することです。

「私たちの訓練データには、科学、日常活動、心の理論など、モデルに常識的な推論と一般知識を教えるために特別に作成された合成データセットが含まれています」とジャバヘリピ氏とブベック氏は記している。「さらに、教育的価値とコンテンツの質に基づいてフィルタリングされた、厳選されたウェブデータで訓練コーパスを強化しています。」

小規模な言語モデルを大規模モデルと同等の性能にするためのもう一つの方法は、スケールアップです。例えば、研究チームは13億パラメータのPhi-1.5モデルの知識を、27億パラメータのPhi-2モデルに組み込みました。

「このスケールされた知識移転は、トレーニングの収束を加速するだけでなく、Phi-2ベンチマークスコアの明らかな向上を示しています」とJavaheripi氏とBubeck氏は書いています。

Tagged: