Amazonの新しいNova Sonic AIモデルは「より人間らしい音声」を特徴としている

Amazonの新しいNova Sonic AIモデルは「より人間らしい音声」を特徴としている

トピック — 人工知能

出版

カラ・シェラーの画像

Nova Sonic の音声 AI モデルは、話者の言葉だけでなく、その口調、抑揚、ペースにも反応できます。

高品質な画像を生成するための基礎モデルの 1 つである Amazon Nova Canvas の Amazon サイトからのスクリーンショット。
Amazon Nova Canvasは、開発者が高品質な画像を作成するための基盤モデルです。画像: Amazon

Amazonは、音声AIモデルを発表した最新のテクノロジー企業です。Amazonによると、Nova Sonicは「音声理解と音声生成を単一のモデルに統合し、AIアプリケーションにおいてより人間らしい音声会話を可能にする、新たな基盤モデル」です。Nova Sonicは、OpenAI、Google、その他のテクノロジー企業による同様のAIモデルと競合することになります。

ノヴァソニックは言葉以上のものを理解する

Nova Sonicは話者の言葉を理解するだけでなく、トーン、スタイル、そしてペースも処理できます。AI音声生成器は会話の状況に適応するため、Alexa初代モデルのぎこちないモデルと比べて、より自然な会話の流れを実現します。Nova Sonicがこれを実現できるのは、複数の音声処理と生成機能を単一のAIモデルに統合しているためです。複数の異なるモデルを使用する必要はありません。

従来のAI音声ツールでは、複数のモデルを順番に実行していました。音声認識モデルが音声をテキストに変換し、次に大規模言語モデル(LLM)が入力テキストを処理して応答を生成し、最後にテキスト読み上げモデルがテキストを音声に変換していました。この複雑なパイプラインにより、話者の元の会話のトーン、スタイル、ペースが損なわれることがよくありました。

Nova Sonicはこれらすべてを1つのモデルに統合しているため、入力された音声の音響的コンテキストに適応できます。また、人間の話し言葉の抑揚にもより自然に反応します。例えば、話者がためらったり、息継ぎをしたりしても、音声が途切れることはありません。

ノヴァソニックの入手方法

Nova Sonicは現在、同社のエンタープライズアプリケーション構築プラットフォームであるAmazon Bedrockの新しいAPI経由で利用可能であり、音声アプリケーションの開発を簡素化します。

Amazon Novaについて開発者が知っておくべきこと

このテクノロジー大手は最近、ウェブブラウザ内でアクションを実行するようにトレーニングされた新しいAIモデル「Amazon Nova Act」を発表しました。さらに、開発者向けにAmazon Nova SDKも提供されています。基盤モデルの一つであるNova Canvasは高品質な画像を生成するほか、様々なモダリティからテキストを生成するモデルや、テキストと画像から動画を生成するモデルも用意されています。

記事をシェア

こちらもご覧ください

  • 私の耳に聞こえるものが聞こえますか?AmazonがEchoのプライバシー設定を削除 ― 知っておくべきこと
  • イーロン・マスクのスターリンクの新たなライバル:アマゾンのプロジェクト・カイパー・インターネット衛星構想が今月始動
  • Meta、Google、Amazon、Microsoftのスタッフが、テクノロジー業界の夢の仕事がいかに過酷になったかを明かす
  • アマゾンのオセロットチップは量子エラーを90%削減し、業界のライバルに挑む
カラ・シェラーの画像

カラ・シェラー

カラ・シェラーは、テクノロジー、金融、高等教育など、様々な業界の出版物やクライアントのために10年近く携わってきたコンテンツライター兼編集者です。SEOのベストプラクティスを駆使し、複数のクライアントのウェブサイトコンテンツをGoogle検索結果の1ページ目に表示させるお手伝いをしてきました。彼女は、読者がどの製品やソフトウェアを使うべきかについて、知識に基づいた判断を下せるよう、事実に基づいた有益なガイドを執筆することに情熱を注いでいます。

Tagged: