OpenAIは12月9日、「shipmas」発表の一環として、一部のChatGPTユーザー向けにビデオジェネレーターSoraをリリースした。
同組織は2024年2月に初めてSoraの機能を実証した。それから数か月の間に、より高速なバージョンを構築し、AIビデオジェネレーターを責任を持ってリリースする方法を検討してきた。
OpenAIがSoraの安全性を重視していることは、今日の生成AIの標準となっています。しかし、これは同時に、例えば組織の評判を損なう可能性のある、説得力のある偽画像の作成に利用される可能性のあるAIに対する予防措置の重要性も示しています。
12月10日現在、Soraでのアカウント作成は需要の高まりにより停止されていましたが、12月16日より再開されました。
ソラとは何ですか?
Soraは生成型AI拡散モデルです。最大1分間の動画に、複数のキャラクター、複雑な背景、そしてリアルな動きを生成できます。また、1本の動画内に複数のショットを作成することで、キャラクターとビジュアルスタイルの一貫性を保ち、効果的なストーリーテリングツールとして活用できます。
Soraは、コンテンツに付随する動画の作成、ソーシャルメディアでのコンテンツや商品のプロモーション、ビジネスプレゼンテーションのポイント説明などに活用できます。プロのビデオ制作者の創造性を置き換えるものではありませんが、Soraを使えば、より迅速かつ簡単にコンテンツを作成できます。
「メディアとエンターテインメントは、こうしたモデルを早期に導入する可能性のある垂直産業になるでしょう」と、ガートナーのアナリスト兼ディスティングイッシュトバイスプレジデントのアルン・チャンドラセカラン氏は2月にTechRepublicへのメールで述べた。「テクノロジー企業や大企業におけるマーケティングやデザインといった業務部門も、早期導入の対象となる可能性があります。」
英国、スイス、およびヨーロッパの一部の国では、今のところSoraにアクセスできない。
現在、Soraは英国、スイス、欧州経済地域を除く、ChatGPTにアクセスできるすべての地域で利用可能です。ガーディアン紙は、Soraが欧州連合(EU)のGDPR(一般データ保護規則)とデジタルサービス法、そして英国のオンライン安全法を遵守する必要があると指摘しました。OpenAIは12月に、「今後数ヶ月以内に」アクセスを拡大する計画を発表しました。
Sora にアクセスするにはどうすればいいですか?
12月より、ChatGPT PlusおよびProユーザーはsora.comでSoraにアクセスできるようになります。
Soraの動画は1080pの解像度、最大20秒の長さ、ワイドスクリーン、縦長、または正方形のアスペクト比で作成できます。インターフェースにはユーザーが独自のコンテンツを挿入できるほか、「ストーリーボード」ツールを使ってプロンプトを順番に整理できます。

Sora はどのように機能しますか?
Soraは拡散モデルであり、プロンプトに基づいて意味不明な画像を徐々に理解可能な画像へと洗練させ、Transformerアーキテクチャを採用しています。OpenAIがDALL-EおよびGPTモデルを作成するために行った研究、特にDALL-Eからの再キャプチャ技術は、Soraの作成への足がかりとなりました。
参照: 2025 年にアジア太平洋地域では最高 AI 責任者が重要になる可能性がある。
ソラの動画は必ずしもリアルに見えない
Soraはまだ左右の区別がつかず、特定のカメラの動きに関する指示など、時間の経過とともに起こる複雑な出来事の説明を理解するのに苦労しています。OpenAIは2月に、Soraで作成された動画は、人がクッキーを一口食べたのに噛み跡が残らないなど、因果関係の誤りによって誤認識される可能性が高いと発表しました。
たとえば、キャラクター間のやり取りでは、ぼやけ(特に手足の周り)や、数の面での不確実性(たとえば、以下のビデオには常に何匹のオオカミがいるか)が示される場合があります。
OpenAI の Sora に関する安全上の注意事項は何ですか?
適切なプロンプトと調整を加えれば、Soraの動画は実写と見間違えられてしまうほどです。OpenAIは、この技術によって名誉毀損や誤報の問題が生じる可能性があることを認識しています。同社は12月に、「児童性的虐待コンテンツや性的ディープフェイク」を防ぐためのガードレールを整備していると述べました。人物全般のアップロードは「制限」されています。
Soraが一般公開された場合、OpenAIはSoraで作成されたコンテンツにC2PAメタデータを透かしとして追加する予定です。メタデータは、画像を選択し、「ファイル情報」または「プロパティ」メニューオプションを選択することで確認できます。AI生成画像を作成するユーザーは、メタデータを意図的に削除することも、誤って削除してしまう可能性もあります。
OpenAI は現在、画像ジェネレーター DALL-E 3 のユーザーがメタデータを削除するのを防ぐための措置を講じていません。
「Soraをもっと早く公開する機会があったにもかかわらず、OpenAIがSoraの一般公開を遅らせる決定をしたことは、確かに称賛に値する」と、SaidotのAI倫理・ガバナンスコンサルタントであるナナ・ヌワチュク氏は、TechRepublicへの電子メールで述べた。
しかし、OpenAIの緩和戦略がどれほど効果的か、またそれがEUで公開されるかどうかについて言及するのは時期尚早だと彼女は述べた。
「こうしたリスクを監視・管理するためには、テクノロジーと共にガバナンスも進化しなければなりません」とヌワチュクウ氏は述べた。「継続的な監視と堅牢な業界標準がなければ、イノベーションの約束は、誤情報や危害の脅威によって影を潜めてしまう危険性があります。」
「AI生成コンテンツを人間が検出するのは既に困難であり、今後ますます不可能になるだろう」とチャンドラセカラン氏は2月に述べた。「ベンチャーキャピタルはディープフェイク検出ツールを開発するスタートアップに投資しており、ディープフェイク検出ツールは企業の防御策の一部となり得る。しかし将来的には、機械生成コンテンツを、多くの場合は作成時点で特定するために、官民連携が必要になるだろう。」
ソラの競争相手は誰ですか?
Soraのフォトリアリスティックな動画はそれぞれ全く異なるものですが、類似のサービスも存在します。その中でも最も有名なのは、現在プライベートプレビュー中のGoogleのVeoと、Amazonが近々リリース予定のNova Reelsでしょう。
Runwayは、企業向けにすぐに利用可能なテキストから動画を生成するAI生成機能を提供します。Flikiは、ソーシャルメディアのナレーション用に音声同期機能を備えた限定的な動画を作成できます。生成AIは、従来型の動画にも確実にコンテンツを追加したり編集したりできるようになりました。
2月8日、Appleの研究者らは、様式化されたアニメーション画像を作成できるKeyframerの大規模言語モデル提案に関する論文を公開した。
編集者注:この記事はもともと 2 月に投稿され、12 月に更新されました。