【ComfyUI】Stable Video 3Dを使うには？(Comfyで稼働)

Stable Video 3Dは、スタビリティーAIによる３Dモデル生成サービスです。

Stable Video 3Dとは？
- 対応モデル
- 商用利用は？
Stable Video 3Dを試す
- Pythonで動かす
- ComfyUIで動かす

Stable Video 3Dとは？

Stable DiffusionでおなじみStability.AIの新モデルです。

www.youtube.com

Stable Video Diffusionに基づいたジェネレーティブモデルで、カメラ調整なしあるいは調整ありで3Dビデオの作成を可能とするものです。

おそらく３Dビデオというのは、画像を(NeRFのように？）３D化。結果としていろんな角度から見たように再現できるという意味合いではないかと思います。

（*comfyui-3dパック、CRMセットアップなどを利用してメッシュが手に入る...との意見もあり）

まだ情報が少ないので、誤りがある場合はご容赦下さい。

対応モデル

以下よりモデルを入手できます。

ただ最初に「同意」をする必要があります。

Introducing Stable Video 3D: Quality Novel View Synthesis and 3D Generation from Single Images — Stability AI

利用できるのは2種類。

SV3D_uは、カメラのコンディショニングなしに、単一の画像入力に基づいて軌道動画を生成

SV3D_pは、SVD3_uの機能を拡張したも。単一画像と軌道ビューの両方に対応し、指定したカメラ軌道に沿って3D映像を作成できる。

商用利用は？

Stability AIメンバーシップを取得することで、商用利用が可能になります。

プロコースで月額20ドル、約3000円。

Membership — Stability AI

Stable Video 3Dを試す

Pythonで動かす

npakaさんの記事を参考にローカルPCのPythonで動かします。

Google Colab で Stable Video 3D を試す｜npaka (note.com)

まずgitからクローン。

!git clone https://github.com/Stability-AI/generative-models
%cd generative-models
!pip install -r requirements/pt2.txt
!pip install .

「generative-models\checkpoints\」に「sv3d_p.safetensors」「sv3d_u.safetensors」を配置。

「generative-models」内に任意の画像「girl.png」を配置。

終わったらターミナルから以下のようにしてsample.pyを直接動かします。

python scripts/sampling/simple_video_sample.py --input_path girl.png --version sv3d_u

残念ながらうちだと「RuntimeError: Pretrained weights (laion2b_s32b_b79k) not found for model ViT-H-14.」エラー。

requirementではtritonのインストールができませんでした。ネットをみるとWindowsでは対応していないのでは二課という意見も。

また、以下でインストールできるという意見もありました。

pip install https://huggingface.co/r4ziel/xformers_pre_built/resolve/main/triton-2.0.0-cp310-cp310-win_amd64.whl

ComfyUIで動かす

ワークフローは、以下から入手できます。

SV3D workflow | ComfyUI Workflow (openart.ai)

実行してみたら「SV3d_Conditioning」「VideoTriangleCFGGuidance」といったノードがないとなり、Missingからのノードインストールでも出てこないので作業はストップ。

（更新　3/21）

その後、ComfyUI自体のアップデートをすると「SV3d_Conditioning」「VideoTriangleCFGGuidance」が見つからないというエラーは解消されました。

依存関係の修復でインストールされたのかもしれません。

更新方法についてはこちらを参照ください。

www.kyoukasho.net

ワークフローで「sv3d_p.saftensors」を「models/checkpoints」にいれておきます。

Imageには任意の画像を入れます。背景がない方がいいようです。

VAEの「vae-ft-mse-840000-ema-pruned.ckpt」は以下より入手可能。「models/vae」にいれておきます。

vae-ft-mse-840000-ema-pruned.ckpt · stabilityai/sd-vae-ft-mse-original at main (huggingface.co)

Queは通るようになったんですが、これでもまだエラーとなります。

（更新 3/21 11：00）

ClipVisionのノードで「model.safetensors」にしたら上記のエラーは回避できました。

モデルは「models/clip_vision」フォルダ内に入れておきます。このファイルが初期状態であるのか、どこから入れたのかは覚えていません。

無事Queが実行できれば、数分待つと動画が生成されました。

comfyでSV3D pic.twitter.com/q3xzYC4u0N
— AIゲーム@クリエイターの教科書 (@GPTRanking) 2024年3月21日

人物画像でもそれっぽくできているのは結構びっくり。

Stable Video 3D
意外に人物画像からの動画もきれいにつくれました。#comfyui pic.twitter.com/hVfTBm4bfB
— AIゲーム@クリエイターの教科書 (@GPTRanking) 2024年3月21日