クリエイターの教科書

Excel, ChatGPT, Stable Diffusion, Visual Studioなどの教科書

【ComfyUI】Stable Video 3Dを使うには?(Comfyで稼働)

Stable Video 3Dは、スタビリティーAIによる3Dモデル生成サービスです。

Stable Video 3Dとは?

Stable DiffusionでおなじみStability.AIの新モデルです。

www.youtube.com

 

Stable Video Diffusionに基づいたジェネレーティブモデルで、カメラ調整なしあるいは調整ありで3Dビデオの作成を可能とするものです。

 

おそらく3Dビデオというのは、画像を(NeRFのように?)3D化。結果としていろんな角度から見たように再現できるという意味合いではないかと思います。

 

(*comfyui-3dパック、CRMセットアップなどを利用してメッシュが手に入る...との意見もあり)

 

 

 

まだ情報が少ないので、誤りがある場合はご容赦下さい。

 

 

対応モデル

以下よりモデルを入手できます。

ただ最初に「同意」をする必要があります。

Introducing Stable Video 3D: Quality Novel View Synthesis and 3D Generation from Single Images — Stability AI

 

 

利用できるのは2種類。

 

SV3D_uは、カメラのコンディショニングなしに、単一の画像入力に基づいて軌道動画を生成

 

SV3D_pは、SVD3_uの機能を拡張したも。単一画像と軌道ビューの両方に対応し、指定したカメラ軌道に沿って3D映像を作成できる。

 

 

商用利用は?

Stability AIメンバーシップを取得することで、商用利用が可能になります。

プロコースで月額20ドル、約3000円。

Membership — Stability AI

 

 

Stable Video 3Dを試す

Pythonで動かす

npakaさんの記事を参考にローカルPCのPythonで動かします。

Google Colab で Stable Video 3D を試す|npaka (note.com)

 

まずgitからクローン。

!git clone https://github.com/Stability-AI/generative-models
%cd generative-models
!pip install -r requirements/pt2.txt
!pip install .

 

 

 

「generative-models\checkpoints\」に「sv3d_p.safetensors」「sv3d_u.safetensors」を配置。

 

「generative-models」内に任意の画像「girl.png」を配置。

 

 

 

終わったらターミナルから以下のようにしてsample.pyを直接動かします。

python scripts/sampling/simple_video_sample.py --input_path girl.png --version sv3d_u

 

残念ながらうちだと「RuntimeError: Pretrained weights (laion2b_s32b_b79k) not found for model ViT-H-14.」エラー。

 

 

 

requirementではtritonのインストールができませんでした。ネットをみるとWindowsでは対応していないのでは二課という意見も。

また、以下でインストールできるという意見もありました。

pip install https://huggingface.co/r4ziel/xformers_pre_built/resolve/main/triton-2.0.0-cp310-cp310-win_amd64.whl

 

 

ComfyUIで動かす

ワークフローは、以下から入手できます。

 

SV3D workflow | ComfyUI Workflow (openart.ai)

 

 

実行してみたら「SV3d_Conditioning」「VideoTriangleCFGGuidance」といったノードがないとなり、Missingからのノードインストールでも出てこないので作業はストップ。

 

 

(更新 3/21)

その後、ComfyUI自体のアップデートをすると「SV3d_Conditioning」「VideoTriangleCFGGuidance」が見つからないというエラーは解消されました。

依存関係の修復でインストールされたのかもしれません。

 

更新方法についてはこちらを参照ください。

www.kyoukasho.net

 

 

ワークフローで「sv3d_p.saftensors」を「models/checkpoints」にいれておきます。

 

Imageには任意の画像を入れます。背景がない方がいいようです。

 

VAEの「vae-ft-mse-840000-ema-pruned.ckpt」は以下より入手可能。「models/vae」にいれておきます。

vae-ft-mse-840000-ema-pruned.ckpt · stabilityai/sd-vae-ft-mse-original at main (huggingface.co)

 

Queは通るようになったんですが、これでもまだエラーとなります。

 

 

 

(更新 3/21 11:00)

ClipVisionのノードで「model.safetensors」にしたら上記のエラーは回避できました。

モデルは「models/clip_vision」フォルダ内に入れておきます。このファイルが初期状態であるのか、どこから入れたのかは覚えていません。

 

無事Queが実行できれば、数分待つと動画が生成されました。

 

人物画像でもそれっぽくできているのは結構びっくり。

 

このブログは、ネットや書籍上の情報、個人の体験や感想を中心にまとめたものです。 正確性を期していはいますが、間違い・誤訳等あるかもしれません。 当サイトの情報によって生じたいかなる損失について一切の責任を負わないものとします. あらかじめご了承ください。

プライバシーポリシー |〇利用規約 |〇問い合わせ