DatabricksがMosaicMLとその生成AIを13億ドルで買収

DatabricksがMosaicMLとその生成AIを13億ドルで買収
抽象的な脳、人工知能、機械学習、エッジ、IoTのイラスト
画像: インヤイプミ/Adobe Stock

データブリックスは月曜日、MosaicMLが13億ドルの買収によりデータブリックス・グループに加わり、独自の生成型人工知能モデルを構築するための「ファクトリー」を提供すると発表した。企業はこのようなAIを活用することで、知的財産権侵害への懸念を軽減できる。

Databricks のデータ管理テクノロジーと MosaicML の AI モデル構築能力を組み合わせることで、企業は OpenAI の ChatGPT などの公開生成 AI に頼るのではなく、独自の大規模言語プラットフォームを作成できるようになります。

MosaicMLは、MPT-7(67億パラメータ)とMPT-13(299億パラメータ)という2つの生成AI基盤モデルを開発しました。これらのMPT基盤モデルは、Databricks独自のオープンソースLLMであるDolly 1および2に統合されます。

ジャンプ先:

  • DatabricksがMosaicMLを選んだ理由
  • Databricks とは何ですか?
  • データブリックスが「プライベート」AI満載の未来を計画する理由
  • 目標は、AIのトレーニング、旋回、構築を容易にすることです
  • MosaicML の競合他社は誰ですか?
  • Databricks + AI Summit のその他のニュース

DatabricksがMosaicMLを選んだ理由

データブリックスのCEO兼共同創業者であるアリ・ゴドシ氏は火曜日のDatabricks + AIサミットで、MosaicMLは「市場で最も使いやすいファクトリー」を持っているため、データブリックスによる買収は正しい選択だったと語った。

彼はまた、MosaicML が適している理由として、同様の競争的な企業文化を挙げました。

買収は現在も規制当局の承認手続き中で、7月末までに完了する見込みです。Ghodsi氏によると、MosaicMLのAIトレーニングおよび推論製品がDatabricksのソフトウェアとどのように統合されるかについては、承認手続き完了後にDatabricksが詳細情報を提供する予定です。

Databricks とは何ですか?

Databricksは、主にエンタープライズ組織向けのデータストレージおよびデータ管理ソフトウェアを提供し、データプラットフォームの移行とデータ分析も行っています。Databricksは、AWSをはじめとする大手エンタープライズソフトウェアおよびSaaSプロバイダーと提携しています。

DatabricksがプライベートAI満載の未来を計画する理由

ゴドシ氏は、同社がMosaicMLのリソースを活用し、顧客が独自の仕様に合わせてLLMを構築・学習できる「ファクトリー」を提供すると指摘した。これにより、企業はアプリケーションプログラミングインターフェース(API)接続に費用をかけたり、モデルを使用する他の企業と独自のデータを共有したりする必要がなくなる。後者は、ChatGPTやGoogle Bardを使用する企業にとって懸念事項となっている。Databricksの顧客は、DollyファミリーとMPTファミリーのいずれかを選択するか、既存のモデルのいずれかに基づいてカスタム生成AIを構築することができる。

参照: パブリックまたはプライベートの生成 AI モデルのどちらが組織に適しているかを判断するためのヒント (TechRepublic)

ゴドシ氏は、「AI基盤モデルをクローズドソースとオープンソースのどちらにするかは、今や誰もが頭を悩ませている問題だ」と述べた。データブリックスは断固としてオープンソース派だ。

「これらのモデルを理解するためのオープンな研究があれば、誰にとってもより良いことだと考えています」と、ゴドシ氏はサミットの質疑応答で述べた。「それぞれの強み、弱み、バイアスなどを理解することが重要です。」

「しかし、最も重要なのは、企業が自社モデルを所有したいと考えていることです。誰かが提供したモデルを一つだけ使いたいとは思わないのです。なぜなら、それは知的財産であり、競争上の優位性があるからです。」

顧客は自身のIPを管理し、データをロックダウンしておきたいと考えているとゴドシ氏は述べた。

データ管理・分析ソフトウェア企業Alationの最高技術責任者(CTO)であるジュナイド・サイード氏も、顧客から生成AIに関する問い合わせを受けていると感じている。しかし、組織にとって、トレーニングモデルに入力するデータが適切であることを把握することが重要だと、同氏はTechRepublicへのメールで述べている。

「データソースの急増とデータ量の増加により、AIモデルの学習に必要な、信頼できる管理されたデータを検索・発見することがこれまで以上に困難になっています」とサイード氏は述べた。「真に効果的な生成モデルを実現するには、ドメイン固有のデータカタログに基づいて微調整し、その出力を人間がレビューする必要があります。」

パブリックAIとプロプライエタリAIのどちらを選ぶか

会話型 AI および自動化企業 Uniphore の共同設立者兼最高経営責任者である Umesh Sachdev 氏は、企業のリーダーに対し、MosaicML のような基盤モデルに基づいて独自の AI を構築するか、GPT シリーズのようなパブリック AI を使用するかを決定する際に、次の質問を自問することを推奨しています。

  • モデルプロバイダーの料金はいくらですか? また、GPU によりインフラストラクチャ コストはどの程度増加しますか?
  • 規制に関する議論はまだ初期段階にあるため、私たちはどの程度積極的に行動すべきでしょうか?企業がChatGPTを使用する場合、データの所有権や運用方法をめぐって法的に争うコンテンツプロバイダーから法的に追及される可能性はあるでしょうか?
  • 公開データやオープンデータでトレーニングされたものではなく、自社業界の独自のデータセットを使用したい場合、すべてのデータが 1 か所で準備されているかどうかを尋ねることがあります。
  • パイロットプロジェクトが成功した場合、規模を拡大できるでしょうか?既存のすべてのレガシーシステムをこのAIレイヤーに接続するとしたらどうでしょうか?

目標は、AIのトレーニング、チューニング、構築を容易にすることだ

「ほとんどの組織には、実行したい専門的なタスクがあります。そのため、特定のモデルをトレーニングおよび調整できるようにしたいと考えています」と、Ghodsi氏はDatabricks + AIサミットで述べました。

ゴドシ氏は、企業顧客が生成型AIを構築するには一定の技術スキルが必要だと述べています。彼は、MosaicMLがAI技術の構築とトレーニングをより容易にしたいというニーズを満たすことができると期待しています。

「最終的には、数回クリックするだけでできるようになることを願っています」とゴドシ氏はサミットで述べた。

「この技術(生成AI)はまだ初期段階にあり、データ主権、拡張性、コストなど、まだ多くの点が解明されていない」と、サッチデフ氏はTechRepublicへのメールで述べた。「企業は発表や意思決定を迅速に進めているが、多くの大きな技術革新の波と同様に、機会は開発の第二波、第三波で顕在化するだろう。」

「このAIによる変革は、ビジネスリーダーとテクノロジーリーダーに、自社のデータ環境の真の状態を明らかにしています」とサイード氏は述べた。「データインテリジェンスプラットフォームとフェデレーテッドデータガバナンスを備えた組織は、データ管理戦略の近代化に今から投資を始める組織よりも先に、GenAIのパワーを活用できるようになります。」

MosaicML の競合他社は誰ですか?

AIトレーニング分野における競争は熾烈で、MosaicMLはNVIDIA、OpenAI、Anthropic、Googleと競合しています。NVIDIAは月曜日に、Snowflakeとの提携を発表し、NVIDIA NeMo LLM開発プラットフォームとNVIDIA GPUアクセラレーションコンピューティングをSnowflake Data Cloudに追加しました。

参照:Snowflake Summit 2023 のベスト:データ戦略と ML への取り組み(TechRepublic Premium)

Databricks + AI Summit のその他のニュース

Databricks + AI サミットでは、他に 4 つの主要なアップデートが発表されました。

  • Delta Lake オープンソース ストレージ フレームワークのバージョン 3.0 が利用可能になり、Universal Format (UniForm)、Kernel for Delta コネクタ、Liquid Clustering データ レイアウトが追加され、アクセスが容易になりました。
  • LakehouseIQ は、Databricks Unity カタログで実行される自然言語チャット AI です。
  • Lakehouse AIは、Lakehouse データ プラットフォーム上の LLM 向けツールキットです。
  • Lakehouse Federation は、これまでサイロ化されていたデータ メッシュ アーキテクチャを統合するツールです。
Tagged: