ソフトウェア

Googleが動画生成AI「Imagen Video」を発表


Stable Diffusion」などの画像生成AIが話題となる中、「Make A Video」や「Phenaki」といた動画生成AIも続々と登場しています。新たに、Googleが「テディベアが皿洗いする(a teddy bear washing dishes)」といった自然言語での指示から動画を生成する「Imagen Video」を発表しました。

Imagen Video
https://imagen.research.google/video/

Googleは2022年5月に、突飛なテキストから高精度な画像を自動生成できるAI「Imagen」を発表しています。

突飛なテキストからも高精度な画像を自動生成できるAIシステム「Imagen」 - GIGAZINE


そして、Googleは今回画像ではなく約5秒間の動画を生成できる「Imagen Video」を公開しました。一体どんな動画が生成されるのかは、以下から見ることが可能です。

Googleの動画生成AI「Imagen Video」のデモムービー - YouTube


この動画は「a teddy bear washing dishes」というテキストプロンプト、いわゆる「呪文」により生成されました。テディベアの手つきや皿が粘土のようにぐにゃりと曲がってしまうことがありますが、それがかえってクレイアニメのような印象を演出しています。また、流水の表現もポイントです。


Imagen Videoは、まず入力されたテキストプロンプトを自然言語処理AI「T5」で処理します。次に、拡散モデルで映像を生成する「Video Diffusion Models」がベースとなる24×48の解像度、毎秒3フレームで16フレームの映像を生成します。そして、これを「時間的超解像度(Temporal Super-Resolution)」と「空間的超解像(Spatial Super-Resolution)」というモデルでアップサンプリングして、最終的に1280×768の解像度と毎秒24フレームで128フレーム、つまり約5.3秒の映像を生成します。


Imagen Videoの公式サイトやSNSには、他にもImagen Videoで生成したさまざまな動画が掲載されています。

Excited to announce Imagen Video, our new text-conditioned video diffusion model that generates 1280x768 24fps HD videos! #ImagenVideohttps://t.co/JWj3L7MpBU
Work w/ @wchan212 @Chitwan_Saharia @jaywhang_ @RuiqiGao @agritsenko @dpkingma @poolio @mo_norouzi @fleet_dj @TimSalimans pic.twitter.com/eN81LqZW7I

— Jonathan Ho (@hojonathanho)


????Thrilled to share Imagen Video: our new text-to-video diffusion model generating 1280x768 24fps HD videos! #ImagenVideo

Website: https://t.co/0y4O6AZFtK https://t.co/t3fUsppHWN pic.twitter.com/uaGqch2NPt

— Ruiqi Gao (@RuiqiGao)


that is amazing!#imagenvideopic.twitter.com/N4n0HZ4vXj

— Leonardo Gutiérrez ???????? (@leonardog27)


Stoked to share our work on Imagen Video!
Diffusion models continue to unlock new possibilities for generative creativity: 3D with #DreamFusion last week, video with #ImagenVideo today ???? https://t.co/bG3YKNeqEg pic.twitter.com/W9epKkvMUf

— Ben Poole (@poolio)

この記事のタイトルとURLをコピーする

・関連記事
テキストを基にする動画生成AI「Phenaki」を匿名の研究者が公開、宇宙飛行士が踊ったりテディベアが泳いだりするサンプル動画も - GIGAZINE

Metaが動画生成AI「Make A Video」発表、空飛ぶスーパードッグや自画像を描くテディベアの動画を公開 - GIGAZINE

画像生成AI「Stable Diffusion」でムービーを作成できる「stable-diffusion-videos」を使ってみた - GIGAZINE

画像生成AI「Stable Diffusion」でどれぐらいプロンプト・呪文の指示に従うかを決める「CFG(classifier-free guidance)」とは一体何なのか? - GIGAZINE

画像生成AI「Stable Diffusion」を使いこなすために知っておくと理解が進む「どうやって絵を描いているのか」をわかりやすく図解 - GIGAZINE

in ソフトウェア,   動画, Posted by log1l_ks

You can read the machine translated English article here.