ハギングフェイスにあるdamo-vilabを使った動画生成の方法です。
damo-vilabを使った「文字から動画」
damo-vilabnの「テキストーTo-ビデオ」が公開されており、文字から動画生成が利用できます。
damo-vilab/text-to-video-ms-1.7b · Hugging Face
GoogleColabでも、プレミアムにしてGPUが利用可能なら使えます。
Google Colabの使い方はこちら。
ここでは、GoogleColabで生成してみましょう。
まずライブラリをインストール
!pip install git+https://github.com/huggingface/diffusers transformers accelerate
つづいて文字からビデオ生成。
ハギングフェイスのサンプルコードがそのまま使えます。
プロンプトは適宜変更しましょう。
import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_videopipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)
終了したらtmpに動画ができています。
できた動画はこちら。