画像/動画生成AIを色々試してるので備忘録としてメモ。
スペック
CPU: Intel Core i7 (RAM 16GB)
GPU: GeForce RTX 4060 Laptop GPU (VRAM 8GB)
ComfyUI使用。
ノートPC新調するときに生成AIちょっと試してみるかくらいの軽い気持ちでとりあえずGPU付を選んでみたけど、今思えばもうちょっと考えて選べばよかった。
最低限スペックだけど量子化とか高速化とかの技術でローカルでもそこそこ動くようになってるので助かる。
Z-Image-Turbo
Model: z-image-turbo_fp8_scaled_e4m3fn_KJ.safetensors (6.0GB)
Text encoder: qwen_3_4b.safetensors (7.9GB)
VAE: ae.safetensors (0.3GB)
自然文が理解できるので扱いやすい。
リアル画像は強いけど2次元は弱そう。
生成は早いけど今のところ個人的には使い道はあんまりないかな。
FLUX.1 Kontext [dev]
Model: flux1-dev-kontext_fp8_scaled.safetensors (11.6GB)
Text encoder: clip_l.safetensors (0.2GB), t5xxl_fp8_e4m3fn_scaled.safetensors (5.0GB)
VAE: ae.safetensors (0.3GB)
参照画像を元に画像編集が可能。
結構よかったけど、現時点ではスピードも品質もQwen-Image-Edit-2509の方がいい感じ。
Qwen-Image-Edit-2509
Model: Qwen-Image-Edit-2509-Q4_K_M.gguf (12.8GB)
Text encoder: Qwen2.5-VL-7B-Instruct-Q4_K_M.gguf (4.6GB), Qwen2.5-VL-7B-Instruct-mmproj-BF16.gguf (1.3GB)
VAE: pig_qwen_image_vae_fp32-f16.gguf (0.2GB)
Lora: Qwen-Image-Edit-Lightning-4steps-V1.0-bf16.safetensors (0.8GB)
Loraを使えば4stepで生成できる。
日本語でもそこそこ通じる。かなり指示通りの画像編集が可能。
ただうちの環境だと1回目は必ずOOMで失敗する。2回目は成功する。謎。
FramePack
Model: FramePackI2V_HY_fp8_e4m3fn.safetensors (16.0GB)
Text encoder: clip_l.safetensors (0.2GB), llava_llama3_fp8_scaled.safetensors (8.9GB)
VAE: hunyuan_video_vae_bf16.safetensors (0.5GB)
めちゃくちゃ遅い。フローが悪いのか設定が悪いのか。新しいバージョンにしたら早くなるんだろうか。
あとなんか手がブレブレになる。
今は動画生成はWan 2.2の方しか使ってない。
Wan 2.2
Model: Wan2.2-I2V-A14B-HighNoise-Q5_K_M.gguf (10.5GB), Wan2.2-I2V-A14B-LowNoise-Q5_K_M.gguf (10.5GB)
Text encoder: umt5_xxl_fp8_e4m3fn_scaled.safetensors (6.6GB)
VAE: wan_2.1_vae.safetensors (0.2GB)
Lora: Wan2.2-Lightning_I2V-A14B-4steps-lora_HIGH_fp16.safetensors (0.6GB), Wan2.2-Lightning_I2V-A14B-4steps-lora_LOW_fp16.safetensors (0.6GB)
Wan 2.2なのになぜかVAEは2.1用のものを使う。
HIGH(前半ステップ用)とLOW(後半ステップ用)の2種類のモデルを使う。
うち環境では480x640、6秒(16fps、101フレーム)くらいまでは生成できる。それ以上はOOM
フレーム補完と高画質化で960x1280、8秒(24fps、202フレーム)にできる。
生成時間は10分ほど
最終フレームを次の開始フレームにして生成すると繋げた動画を作れる。
Loraが必要だったりするけどかなり思い通りに動いてくれる。
t2vもできるけど画風のバリエーションがないからSDXLで画像ガチャしてからWan 2.2でi2vするといい感じの流れになる。
Wan 2.2 VACE
Model: Wan2.2-VACE-Fun-A14B-high-noise-Q4_K_M.gguf (11.4GB), Wan2.2-VACE-Fun-A14B-low-noise-Q4_K_M.gguf (11.4GB)
Text encoder: umt5_xxl_fp8_e4m3fn_scaled.safetensors (6.6GB)
VAE: wan_2.1_vae.safetensors (0.2GB)
Lora: Wan2.2-Lightning_I2V-A14B-4steps-lora_HIGH_fp16.safetensors (0.6GB), Wan2.2-Lightning_I2V-A14B-4steps-lora_LOW_fp16.safetensors (0.6GB)
ControlNetのv2vみたいな感じ。
ベースの動画の動きを参照画像の人物で置き換えられる。
i2vでいい感じの動画ができたときに動画ガチャせずに人物や服装を入れ替えられる。














