【ハギングフェイスの教科書】damo-vilabを使った「文字から動画」の生成

ハギングフェイスにあるdamo-vilabを使った動画生成の方法です。

damo-vilabを使った「文字から動画」

damo-vilabを使った「文字から動画」

damo-vilabnの「テキストーTo-ビデオ」が公開されており、文字から動画生成が利用できます。

damo-vilab/text-to-video-ms-1.7b · Hugging Face

GoogleColabでも、プレミアムにしてGPUが利用可能なら使えます。

Google Colabの使い方はこちら。

www.kyoukasho.net

ここでは、GoogleColabで生成してみましょう。

まずライブラリをインストール

!pip install git+https://github.com/huggingface/diffusers transformers accelerate

つづいて文字からビデオ生成。

ハギングフェイスのサンプルコードがそのまま使えます。

プロンプトは適宜変更しましょう。

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)

終了したらtmpに動画ができています。