テキストによる動画生成AI「Sora」の衝撃 、創業者はスタンフォード大学天才少女

2024/02/25 11:30

2月16日深夜、OpenAIがテキストから動画を生成するAI(人工知能)モデル「Sora」を発表した。ユーザーのテキスト内容を基に、細やかで込み入った場面や生き生きした表情、複雑なシーンなどを60秒間に及ぶ1080Pの高画質の動画にするものである。

Soraより生成した動画の画面

Soraは、これまでの動画ツールであるPika、Runwayにも増して、デビューするなりテクノロジー業界に火をつけた。生成された動画はビジュアル効果抜群で見事な出来栄えであり、一夜にして大手アプリなどで再現された。エヌヴィディアのAI研究院チーフサイエンティストであるJim Fan氏は、「Soraはデータ駆動型の物理エンジンで、動画生成におけるGPT-3の瞬間だ」と評価した。

OpenAIはまた、「Soraは今、物理の世界の汎用シミュレーターを構築するものと位置づけられており、モデルを訓練することで現実の世界とやり取りをするという問題を解決することが目標」と宣言している。つまりOpenAIはSoraを単なる動画生成モデルではなく「世界のシミュレーター」と見なしている。「人間と同じように風が吹けば木の葉がざわめくこと、戦車の衝撃力で簡単に自動車を壊せることを知ってほしいが、自動車が戦車を壊すような事態はあり得ない」という。

Soraより生成した動画の画面

OpenAIが発表した技術報告レポートによると、Soraの研究結果から、動画生成モデルの成長で物理世界の汎用シミュレーターに極めて明るい将来が開けると見ている。AIに運動中の物理の世界を理解しシミュレーションさせるという新たなステップに向かうものである故、SoraはAGI実現のプロセスにおける画期的なものであり、単なる動画生成にとどまらないと見られている。 

Soraを立ち上げた郭文景(Demi)氏は、東アジアで育ったハーバード大学出身の女性で、スタンフォード大学博士課程を中退して2023年4月 Pika Labsを設立し、同年11月に初めての商品「Pika 1.0」を発表した。3Dアニメーションや漫画などの映画を生成し編集するもので、ユーザー自身がアニメをアップロードすることも可能となり、生成AIを使うことで場面の編集やコンストラクションをする。映画の質感やアニメ並みの効果でビジュアル効果は抜群、近々普通の人が映画監督になることもありそうである。

Demi氏は幼少期からクリエイティブ業界に興味を持っていたことが理由で、スタンフォード大学に進学した。それまでもAIを手掛けており、2年前から同大学博士課程でAIによりコンテンツを制作するAI for content creationを学び始めた。

Demi氏は当時、2人の教員に教わっており、1人は同大学AI研究室のリーダーであるChris Manning氏で、もう1人は以前にコンピューターで映画作りをしてアカデミー賞を2度受賞した経験を持つ。大学側もかねてからAIによるコンテンツ制作を目指しており、Demi氏もゲーム会社でAI forアバター、AI for 3Dゲームコンテンツ、原画の探索などを手掛けていた。

Pika Labs は わずか4人のメンバーでスタートし、設立からわずか6ヶ月で5,500万米ドルを調達している。また、Lightspeed Venture Partners がリードした最新の資金調達ラウンドで3,500万米ドルを調達し、現在では2億米ドル以上の評価を受けている。Pika1.0を発表して4か月も経たずに同じ分野でSoraがデビューし、AI動画生成という世界でまた様々な不確定性や可能性が生じている。

Pika の創業者 Demi Guo(郭文景)氏(左)、共同設立者兼 CTO の Chenlin Meng(孟晨琳)氏(右)はスタンフォード大学 人工知能研究所(Stanford AI Lab)で出会い、起業家としての道を歩み始めた。

Sora』は映画のカットのように引いたりアップしたり、複数アングルで生成してくれるため、CMなども超低予算で作れるだろう。ユーチューバーなど動画制作業界はもちろん、PR業界も影響を受けるだろう

映像業界では、Soraの今後の可能性について、一部の動画について出来がよくなると見ている。例えば子犬を撮影する場合、犬に演技を教え込むのが難しくていいシーンはなかなか撮れない。しかし、Soraにテキストをすこし入力するだけで極めてリアルな場面が出来上がる。今後はSora Plusなどアップロード版が生まれる可能性も高く、より高度な制作に適用され、特撮シーンの作成かける時間がぐっと短縮される上、一段と彩溢れる作品が出来上がることになる。

ただし今の段階では、Soraはまだそのレベルに至っていない。本物の物理の世界をさらに教え込む必要があるほか、リアルな感情表現については限界があると見られる。2人が議論を交わす場面を撮影する際に、話しぶりなども含め、わずかな表情の変化を通じて心の動きまで表現し、見ている人の共感を呼べるものにすることは難しい。Soraはとりあえず、風景や特撮シーンを納める際の利用がふさわしいようである。

(中国経済新聞)