Stable Video 3Dは、スタビリティーAIによる3Dモデル生成サービスです。
Stable Video 3Dとは?
Stable DiffusionでおなじみStability.AIの新モデルです。
Stable Video Diffusionに基づいたジェネレーティブモデルで、カメラ調整なしあるいは調整ありで3Dビデオの作成を可能とするものです。
おそらく3Dビデオというのは、画像を(NeRFのように?)3D化。結果としていろんな角度から見たように再現できるという意味合いではないかと思います。
(*comfyui-3dパック、CRMセットアップなどを利用してメッシュが手に入る...との意見もあり)
まだ情報が少ないので、誤りがある場合はご容赦下さい。
対応モデル
以下よりモデルを入手できます。
ただ最初に「同意」をする必要があります。
利用できるのは2種類。
SV3D_uは、カメラのコンディショニングなしに、単一の画像入力に基づいて軌道動画を生成
SV3D_pは、SVD3_uの機能を拡張したも。単一画像と軌道ビューの両方に対応し、指定したカメラ軌道に沿って3D映像を作成できる。
商用利用は?
Stability AIメンバーシップを取得することで、商用利用が可能になります。
プロコースで月額20ドル、約3000円。
Stable Video 3Dを試す
Pythonで動かす
npakaさんの記事を参考にローカルPCのPythonで動かします。
Google Colab で Stable Video 3D を試す|npaka (note.com)
まずgitからクローン。
!git clone https://github.com/Stability-AI/generative-models
%cd generative-models
!pip install -r requirements/pt2.txt
!pip install .
「generative-models\checkpoints\」に「sv3d_p.safetensors」「sv3d_u.safetensors」を配置。
「generative-models」内に任意の画像「girl.png」を配置。
終わったらターミナルから以下のようにしてsample.pyを直接動かします。
python scripts/sampling/simple_video_sample.py --input_path girl.png --version sv3d_u
残念ながらうちだと「RuntimeError: Pretrained weights (laion2b_s32b_b79k) not found for model ViT-H-14.」エラー。
requirementではtritonのインストールができませんでした。ネットをみるとWindowsでは対応していないのでは二課という意見も。
また、以下でインストールできるという意見もありました。
pip install https://huggingface.co/r4ziel/xformers_pre_built/resolve/main/triton-2.0.0-cp310-cp310-win_amd64.whl
ComfyUIで動かす
ワークフローは、以下から入手できます。
SV3D workflow | ComfyUI Workflow (openart.ai)
実行してみたら「SV3d_Conditioning」「VideoTriangleCFGGuidance」といったノードがないとなり、Missingからのノードインストールでも出てこないので作業はストップ。
(更新 3/21)
その後、ComfyUI自体のアップデートをすると「SV3d_Conditioning」「VideoTriangleCFGGuidance」が見つからないというエラーは解消されました。
依存関係の修復でインストールされたのかもしれません。
更新方法についてはこちらを参照ください。
ワークフローで「sv3d_p.saftensors」を「models/checkpoints」にいれておきます。
Imageには任意の画像を入れます。背景がない方がいいようです。
VAEの「vae-ft-mse-840000-ema-pruned.ckpt」は以下より入手可能。「models/vae」にいれておきます。
vae-ft-mse-840000-ema-pruned.ckpt · stabilityai/sd-vae-ft-mse-original at main (huggingface.co)
Queは通るようになったんですが、これでもまだエラーとなります。
(更新 3/21 11:00)
ClipVisionのノードで「model.safetensors」にしたら上記のエラーは回避できました。
モデルは「models/clip_vision」フォルダ内に入れておきます。このファイルが初期状態であるのか、どこから入れたのかは覚えていません。
無事Queが実行できれば、数分待つと動画が生成されました。
comfyでSV3D pic.twitter.com/q3xzYC4u0N
— AIゲーム@クリエイターの教科書 (@GPTRanking) 2024年3月21日
人物画像でもそれっぽくできているのは結構びっくり。
Stable Video 3D
— AIゲーム@クリエイターの教科書 (@GPTRanking) 2024年3月21日
意外に人物画像からの動画もきれいにつくれました。#comfyui pic.twitter.com/hVfTBm4bfB