Billy Tse
HomeRoadmapBlogContact
Playground
Buy me a bug

© 2026 Billy Tse

OnlyFansLinkedInGitHubEmail
Back to Blog
February 4, 2026•15 min read

解構 WanVideo 2.2:雙專家接力嘅 AI 影片生成工作流

深入解析 WanVideo 2.2 點樣透過 Mixture-of-Experts (MoE) 架構,用高噪點同低噪點兩個專家模型接力,喺 ComfyUI 生成電影級 AI 影片

Video GenerationDiffusionImage Processing

喺 AI 影片生成領域,WanVideo 2.2 嘅橫空出世帶嚟咗令人驚嘆嘅電影級質感同動態連貫性。但係當你打開佢個 ComfyUI 工作流,會見到兩個模型加載器、兩個採樣器串聯埋一齊,仲有個神秘嘅「Split Steps」參數。點解要搞到咁複雜?今日我哋就嚟深度解構呢個「雙專家接力」嘅工作流,睇下一張靜態圖片係點樣喺潛空間中一步步「動」起嚟。

TL;DR

核心重點:

  • 🎯 MoE 架構:WanVideo 2.2 用咗 Mixture-of-Experts 設計,將生成工作分俾兩個專家模型
  • ✅ 高噪點專家 (HN):負責定義動作結構同運鏡,專攻「動得對唔對」
  • ✅ 低噪點專家 (LN):負責細節質感同降噪,專攻「睇落真唔真」
  • ⚡ Lightning LoRA:將原本 50 步嘅生成壓縮到 4-8 步
  • 🎬 RIFE 插幀:將低幀率影片提升到絲般順滑嘅觀感

Table of Contents

  • 核心哲學:咩係 Mixture-of-Experts 架構
  • 第一階段:啟動引擎與極限優化
  • 第二階段:潛空間中嘅接力賽
  • 第三階段:從潛影到流暢影片
  • 總結
  • 相關資源

核心哲學:咩係 Mixture-of-Experts 架構

呢個工作流之所以望落咁複雜,根本原因係 WanVideo 2.2 採用咗先進嘅 Mixture-of-Experts (MoE) 架構。

傳統嘅 AI 模型通常係一位「全能通才」,由頭到尾負責生成所有內容。但 WanVideo 2.2 認為術業有專攻,所以將生成過程拆解,交俾兩位性格迥異嘅「專家模型」接力完成。

🎯 核心概念:雙專家分工
WanVideo 2.2 將影片生成分成兩個階段,每個階段由專門訓練嘅模型負責:

  1. 高噪點專家 (High-Noise Expert, HN):「結構與動作大師」

  2. 低噪點專家 (Low-Noise Expert, LN):「細節與質感大師」

高噪點專家 (HN):結構與動作大師

喺生成嘅最初階段,畫面充滿雜訊時,HN 負責大刀闊斧咁勾勒出物體嘅輪廓、確定人物嘅動作軌跡同鏡頭嘅運動方式。佢唔拘小節,只係在乎畫面「動得對唔對」。

低噪點專家 (LN):細節與質感大師

當骨架搭建完畢,LN 接手工作,負責消除殘餘嘅雜訊,精細咁描繪皮膚紋理、衣物褶皺同光影反射。佢專注於令畫面「睇落真唔真」。

喺你嘅工作流中,你需要分別加載呢兩個巨大嘅模型文件,呢個就係一切複雜性嘅起點。

第一階段:啟動引擎與極限優化

喺開始生成之前,工作流嘅前半部分都係做準備工作。為咗令消費級顯卡都跑得郁呢兩位龐大嘅專家,我哋用上咗各種「黑科技」。

T5 XXL:新一代文字編碼器

首先,你輸入嘅文字提示詞(prompt)需要被 AI 理解。喺 WanVideo 2.2 入面,呢個工作由 T5 XXL (Text-To-Text Transfer Transformer) 負責,佢係傳統 CLIP 嘅升級版。

傳統 CLIP vs T5 XXL:點解唔再需要逗號?

如果你用過舊版嘅 AI 影片生成工具,你可能習慣咗要將 prompt 用逗號分隔,好似咁:

傳統 CLIP prompt: "a man, running on the beach, sunset, cinematic lighting, 4k"

點解要用逗號?因為 傳統 CLIP 唔太識理解句子結構,佢將每個逗號分隔嘅部分當成獨立嘅「關鍵詞」嚟處理。就好似你同一個唔太識中文嘅人溝通,要逐個詞逐個詞咁講。

但 T5 XXL 係一個真正嘅語言模型,佢識得理解完整嘅自然語言句子!而家你可以咁寫:

T5 XXL prompt: "一個男人在日落時分於海邊奔跑,電影級打光效果"

💡 T5 XXL 嘅三大優勢
1. 理解句子結構

  • 傳統 CLIP:「男人, 海邊, 跑步」→ 三個獨立概念

  • T5 XXL:「一個男人在海邊跑步」→ 理解「男人」係主體,「跑步」係動作,「海邊」係地點

2. 理解語境同關係

  • 傳統 CLIP:「紅色, 汽車, 快速」→ 可能生成紅色背景 + 汽車 + 快速移動嘅雲

  • T5 XXL:「一架快速行駛的紅色汽車」→ 知道「紅色」係修飾「汽車」,「快速」係形容「行駛」

3. 支援更長更複雜嘅描述

  • 傳統 CLIP:通常限制喺 77 個 tokens

  • T5 XXL:支援更長嘅描述,而且唔會混亂

實際例子對比:

假設你想生成「一個女孩喺櫻花樹下溫柔咁對住鏡頭微笑」:

編碼器Prompt 寫法生成結果
傳統 CLIPgirl, cherry blossom, smiling, gentle, camera可能將「gentle」理解成「溫柔嘅櫻花」而唔係「溫柔嘅微笑」
T5 XXL一個女孩在櫻花樹下溫柔地對著鏡頭微笑正確理解「溫柔」係修飾「微笑」,「櫻花樹下」係場景

數學上嘅分別:

傳統 CLIP 編碼:

c=CLIP("word1, word2, word3")c = \text{CLIP}(\text{"word1, word2, word3"})c=CLIP("word1, word2, word3")

T5 XXL 編碼:

c=T5-XXL("complete natural sentence")c = \text{T5-XXL}(\text{"complete natural sentence"})c=T5-XXL("complete natural sentence")

where:

  • ccc: 文字編碼向量(引導訊號)
  • T5-XXL 保留咗句子嘅語法結構同語義關係

點解仲有人用逗號?

你可能會見到有啲人仲係習慣用逗號分隔 prompt。呢個唔係必需,但有時係為咗:

  • 強調某啲關鍵詞:用逗號隔開可以令 AI 更注意某個元素
  • 舊習慣:從 Stable Diffusion / Midjourney 時代帶過嚟嘅寫法

但喺 WanVideo 2.2 用 T5 XXL 嘅情況下,自然語言句子通常效果更好。

VAE:潛空間嘅翻譯官

VAE (Variational Autoencoder) 係整個工作流嘅「翻譯官」,佢有兩個關鍵職責:

編碼 (Encode):將你嘅輸入圖片壓縮成「潛空間 (Latent Space)」數據:

z=Encoder(x)z = \text{Encoder}(x)z=Encoder(x)

where:

  • xxx: 輸入圖片(像素空間),維度例如 3×1920×10803 \times 1920 \times 10803×1920×1080
  • zzz: 潛空間表示,維度大約係 4times120times684 times 120 times 684times120times68(壓縮咗 64 倍!)

解碼 (Decode):將潛空間數據還原返做像素圖像:

x^=Decoder(z)\hat{x} = \text{Decoder}(z)x^=Decoder(z)

where:

  • hatxhat{x}hatx: 重建嘅圖片,應該盡量接近原始 xxx

潛空間係一個低維度嘅抽象表示,就好似將一幅 1920×1080 嘅圖片壓縮成一個細好多嘅「概念地圖」。AI 模型喺呢個空間入面工作,可以大幅減少運算量。

💡 點解要用潛空間?
如果直接喺像素層面生成影片,運算量會大到難以想像。透過 VAE 壓縮到潛空間,我哋可以用少好多嘅記憶體同運算資源,同時保持高質素嘅生成效果。

邊個決定影片質素?模型 vs VAE

好多人會問:究竟係 AI 模型定係 VAE 決定最終影片質素?答案係:兩者都重要,但負責唔同嘅野。

用餐廳比喻:

想像你去一間餐廳食飯:

  • AI 模型(HN + LN 專家)= 廚師:決定「煮咩菜、點樣擺盤、味道點樣」
  • VAE = 餐具同餐碟:決定「你最終見到同食到嘅質素上限」

🎯 各個組件嘅職責
1. VAE 決定「畫質上限」(硬件限制)

  • 就好似相機鏡頭:鏡頭質素差,影出嚟一定矇

  • VAE 如果訓練得唔好,就算模型生成得幾完美,解碼出嚟都會「走樣」

  • 例子:如果 VAE 只能處理 480p,就算模型想生成 4K 都冇用

2. AI 模型決定「內容質素」(創作能力)

  • 就好似攝影師:決定構圖、光影、動作

  • 高噪點專家決定「點樣郁、郁成點」

  • 低噪點專家決定「細節靚唔靚、真唔真」

  • 例子:就算 VAE 支援 4K,模型如果生成嘅動作僵硬,影片都唔會好睇

3. CLIP 決定「理解能力」(溝通橋樑)

  • 就好似翻譯:將你嘅要求翻譯俾廚師聽

  • CLIP 如果理解錯你嘅 prompt,成個生成都會偏晒

  • 例子:你講「海邊跑步」,CLIP 理解成「海灘散步」,出嚟就唔啱

4. RIFE 決定「流暢度」(後期加工)

  • 就好似影片剪接師:補充中間幀令動作更順滑

  • 唔影響畫質,只係影響「睇落幾流暢」

  • 例子:15fps 睇起嚟一格格,RIFE 插幀到 30fps 就絲般順滑

實際案例分析:

假設你想生成「一個人喺海邊跑步」嘅影片:

組件如果佢出問題...結果會點
CLIP理解錯 prompt可能生成「游水」而唔係「跑步」
VAE Encoder壓縮時失真輸入圖片嘅細節流失,影響後續生成
HN 模型訓練唔足跑步動作唔自然、僵硬
LN 模型訓練唔足人物面部模糊、衣服質感差
VAE Decoder解碼唔好就算模型生成得好,解碼出嚟都會「走樣」、有artifacts
RIFE插幀失敗動作流暢度差,但畫質唔受影響

結論:木桶效應

影片質素由「最弱嘅一環」決定。就好似一個木桶,最短嗰塊木板決定咗能裝幾多水:

  • VAE 好但模型差 → 高清嘅垃圾內容
  • 模型好但 VAE 差 → 低清嘅優質內容
  • 兩者都好 → 電影級質素 ✨

量化與交換 (Quantization & Block Swap)

我哋將模型精度壓縮至 fp8,並且啟用 Block Swap 技術,令暫時唔用嘅模型層動態咁喺顯存 (VRAM) 同內存 (RAM) 之間搬運,榨乾每一滴硬體效能。

Lightning LoRA 嘅魔法

呢個係工作流能夠「飛快」運行嘅關鍵。原本 WanVideo 可能需要 50 步先生成到高品質影片,但透過掛載專門訓練嘅 Lightning LoRA,我哋將所需嘅總步數 (Steps) 奇蹟般咁壓縮到咗 4 到 8 步。

⚠️ 注意
呢兩位專家需要分別掛載對應嘅 HIGH 版同 LOW 版 LoRA。如果掛錯咗,會影響生成質素。

第二階段:潛空間中嘅接力賽

一切準備就緒之後,圖片被編碼器轉換成 AI 能夠理解嘅「潛空間 (Latent Space)」數據。接落嚟,就係見證奇蹟嘅時刻——雙採樣器接力。

你會見到兩個串聯嘅 KSamplerAdvanced 節點,佢哋共享同一份潛空間數據,就好似接力賽跑中嘅兩名運動員傳遞同一根接力棒。呢場比賽嘅規則由 Steps (總步數) 同 Split Steps (分割步數) 制定。

理解降噪過程:由雜訊到清晰

要理解點解需要兩個專家,首先要明白 AI 影片生成係一個 降噪 (denoising) 過程:

  1. 起點(100% 雜訊):潛空間數據一開始係完全嘅隨機雜訊,完全睇唔到任何有意義嘅內容
  2. 終點(0% 雜訊):經過多步處理後,雜訊被完全消除,變成清晰嘅影片畫面

降噪過程嘅數學表示:

zt=αt⋅z0+1−αt⋅ϵz_t = \sqrt{\alpha_t} \cdot z_0 + \sqrt{1 - \alpha_t} \cdot \epsilonzt​=αt​​⋅z0​+1−αt​​⋅ϵ

where:

  • ztz_tzt​: 第 ttt 步嘅潛空間數據
  • z0z_0z0​: 最終生成嘅清晰影片(潛空間表示)
  • epsilonepsilonepsilon: 隨機雜訊,服從標準正態分佈 N(0,I)\mathcal{N}(0, I)N(0,I)
  • alphatalpha_talphat​: 噪點調度參數,由 1 遞減到 0
  • ttt: 時間步,由 TTT (最大噪點) 遞減到 0 (無噪點)

當 t=Tt = Tt=T (起點):alphaTapprox0alpha_T approx 0alphaT​approx0,所以 zT≈ϵz_T \approx \epsilonzT​≈ϵ (純雜訊)

當 t=0t = 0t=0 (終點):alpha0=1alpha_0 = 1alpha0​=1,所以 z0z_0z0​ 就係最終清晰影片

呢個降噪過程,唔同階段需要處理嘅問題完全唔同:

高噪點階段(雜訊多):

  • 畫面仲係一團模糊,需要決定「邊度係天空、邊度係人、邊度係地面」
  • 重點係建立 大框架:物體位置、動作方向、鏡頭運動
  • 唔需要理會細節,只係做「粗胚」

低噪點階段(雜訊少):

  • 大框架已經定咗,需要精修細節
  • 重點係消除殘餘雜訊,補充 紋理同質感:皮膚毛孔、衣服褶皺、光影細節
  • 確保最終輸出睇落真實自然

🎯 點解唔用一個模型做晒?
一個模型如果要同時處理「建立結構」同「精修細節」,往往會:

  • 喺高噪點階段過份關注細節,導致整體結構混亂(動作僵硬)

  • 喺低噪點階段仲嘗試改結構,導致細節崩壞(畫面模糊)

分工專精,先可以兩者兼得。

實際例子:Steps = 4, Split_step = 2

假設我哋設定 Steps = 4,Split_step = 2,睇下呢場接力賽係點樣進行:

第一棒:高噪點專家嘅衝刺 (Step 0 → Step 2)

噪點水平:100% → 50%(由完全雜訊到初見輪廓)

第一個採樣器(連接 HN 模型)率先起跑。喺最初嘅 2 步入面,佢專注處理 高噪點環境:

佢做緊咩?

  • 從一團雜訊中「分辨」出邊度應該係人、邊度係背景
  • 確定人物嘅動作軌跡(例如:由左行到右、跑步姿勢)
  • 決定鏡頭運動(例如:固定鏡頭 vs 跟拍)
  • 建立影片嘅整體構圖同動態節奏

佢唔理咩?

  • 人物面部細節(眼睛、鼻、口)
  • 衣服質感(布料紋理、褶皺)
  • 光影細節(高光、陰影過渡)

呢個階段嘅輸出:如果你喺 Step 2 之後解碼出嚟睇,你會見到動作已經成型,物體輪廓清晰可見,但畫面好似「隔住毛玻璃」咁模糊。

關鍵嘅「交棒時刻」(The Handoff)

噪點水平:50%(框架已定,但細節模糊)

喺第 2 步結束嘅瞬間,第一個採樣器停低,將經過初步處理嘅潛空間數據,原封不動咁傳遞俾第二個採樣器。呢個時候,大結構已經鎖定,唔會再大幅改變。

第二棒:低噪點專家嘅精修 (Step 2 → End)

噪點水平:50% → 0%(由模糊到電影級清晰)

第二個採樣器(連接 LN 模型)接過數據,由第 2 步開始繼續跑。佢專注處理 低噪點環境:

佢做緊咩?

  • 消除殘餘雜訊,令畫面由模糊變清晰
  • 補充皮膚紋理(毛孔、皺紋、膚色過渡)
  • 精修衣服質感(布料質感、褶皺、反光)
  • 調整光影細節(高光位、陰影、環境光反射)
  • 確保每一幀嘅細節都自然流暢

佢唔會做咩?

  • 改變物體位置或動作軌跡(框架已定)
  • 大幅調整構圖或鏡頭運動

呢個階段嘅輸出:最終生成嘅影片,既有流暢嘅動作,又有電影級嘅細節質感。

💡 Split Steps 點樣決定交棒時機?
Split_step = 2 意思係:

  • Step 0-1:高噪點專家處理(100% → 75% → 50% 雜訊)

  • Step 2-3:低噪點專家處理(50% → 25% → 0% 雜訊)

數學上嘅定義:

zt−1={HN-Expert(zt,t,c)if t>sLN-Expert(zt,t,c)if t≤s z_{t-1} = \begin{cases} \text{HN-Expert}(z_t, t, c) & \text{if } t > s \\ \text{LN-Expert}(z_t, t, c) & \text{if } t \leq s \end{cases} zt−1​={HN-Expert(zt​,t,c)LN-Expert(zt​,t,c)​if t>sif t≤s​

where:

  • sss: Split step(交棒時刻)

  • ccc: CLIP 文字編碼(引導訊號)

  • HN-Expert: 高噪點專家模型

  • LN-Expert: 低噪點專家模型

點樣調校?

  • Split 得早(例如 s=1s = 1s=1):更著重動態流暢度

  • Split 得遲(例如 s=3s = 3s=3):更著重細節質感

第三階段:從潛影到流暢影片

當第二位專家完成工作之後,我哋得到嘅依然係人類睇唔明嘅潛空間數據。最後一步,我哋需要將佢「翻譯」返嚟。

VAE 解碼:潛空間返回現實

VAE 解碼器將潛空間數據「還原」返我哋肉眼可見嘅像素圖像序列。記得喺第一階段,VAE 將圖片壓縮成抽象嘅潛空間數據?而家佢做返相反嘅工作,將經過兩位專家精心雕琢嘅潛空間數據,逐幀咁轉換成真實嘅影片畫面。

呢個時候,我哋已經得到咗一段連貫嘅影片,但佢嘅幀率 (FPS) 可能較低,睇起嚟有啲卡頓。

RIFE 智能插幀 (Frame Interpolation)

為咗獲得絲般順滑嘅觀感,我哋將解碼後嘅影片送入 RIFE VFI 節點。呢個係一個 AI 模型,佢會分析前後兩幀畫面,並且「腦補」出中間缺失嘅過渡幀,將原本可能只有 15fps 嘅影片提升到 30fps 甚至更高。

RIFE 嘅數學原理:

It=RIFE(I0,I1,t)I_t = \text{RIFE}(I_0, I_1, t)It​=RIFE(I0​,I1​,t)

where:

  • I0I_0I0​: 起始幀(時間 t=0t=0t=0)
  • I1I_1I1​: 結束幀(時間 t=1t=1t=1)
  • ItI_tIt​: 中間幀(時間 tin(0,1)t in (0, 1)tin(0,1)),例如 t=0.5t=0.5t=0.5 就係正中間嘅一幀
  • RIFE: Real-time Intermediate Flow Estimation 模型

RIFE 使用咗光流估計 (optical flow estimation) 技術,能夠智能咁預測物體移動軌跡,生成自然流暢嘅中間幀。例如要將 15fps 提升到 30fps,RIFE 會喺每兩幀之間插入一幀(t=0.5t=0.5t=0.5)。

🎬 咩係 Soap Opera Effect(肥皂劇效應)?
Soap Opera Effect 係一種視覺現象,當影片幀率過高或者人工插幀過度時,電影級內容會失去「電影感」,反而睇落好似廉價嘅電視劇或者現場直播咁。

點解會發生?

1. Motion Blur(動態模糊)嘅消失

傳統電影攝影機用 shutter speed 拍攝,每一幀都會捕捉一段時間內嘅運動,產生自然嘅 motion blur:

Motion Blur=Shutter SpeedFrame Rate\text{Motion Blur} = \frac{\text{Shutter Speed}}{\text{Frame Rate}} Motion Blur=Frame RateShutter Speed​

例如 24fps 電影,每幀曝光時間約 1/48 秒,快速移動嘅物體會有自然模糊。

但當你用 AI 插幀到 60fps 時:

  • 原本 24 幀係真實拍攝(有 motion blur)

  • 新插入嘅 36 幀係 AI 生成(冇 motion blur,過份清晰)

  • 結果:每個動作都變得「過度銳利」,失去電影嘅夢幻感

2. 大腦嘅視覺期望

我哋嘅大腦經過幾十年訓練,將唔同幀率同唔同內容類型連結埋一齊:

  • 24fps = 電影院、大製作、藝術感

  • 30fps = 電視劇、網絡影片、日常內容

  • 60fps = 新聞直播、真人騷、體育比賽、廉價肥皂劇

當你用 60fps 播放電影內容時,大腦會誤以為「呢個係直播」或者「呢個係低成本製作」,破壞咗沉浸感。

3. 點解叫「肥皂劇」效應?

早期電視肥皂劇(soap opera)為咗節省成本,用 video camera 而唔係 film camera 拍攝:

  • Film camera:24fps,有 motion blur,有電影感

  • Video camera:30fps 或 60fps(interlaced),過度清晰,冇 motion blur

所以「肥皂劇」嘅視覺特徵就係「太清晰、太流暢、冇電影感」,呢個就係 Soap Opera Effect 嘅由來。

實際例子:

想像《指環王》三部曲:

  • 原版 24fps:史詩感、夢幻、你感受到「呢個係中土世界」

  • 插幀到 60fps:睇落好似「演員喺片場做戲」,所有魔法感消失,變成「真人騷」

點樣避免?

  • 用標準幀率(24fps 或 30fps),唔好盲目追求「更流暢」

  • 如果一定要插幀,用 2x 倍數(15 → 30,24 → 48),避免奇怪幀率

  • 對於電影級 AI 內容,30fps 係最安全嘅選擇

⚠️ 點解係 30fps?點解唔係 24、32 或 60fps?
你可能會問:點解偏偏係 30fps?其他幀率有咩問題?讓我哋逐個分析。

❌ 點解唔係 24fps?

24fps 係電影標準幀率,但對於 AI 生成影片嚟講有幾個問題:

  • Soap Opera Effect 風險:如果原始生成係 15-16fps,插幀到 24fps 嘅倍數關係唔理想(15 → 24 = 1.6x),RIFE 需要做唔均勻嘅插幀,容易產生視覺 artifacts

  • 網絡平台唔友好:YouTube、社交媒體平台嘅主流係 30fps 或 60fps,24fps 會被某啲播放器當成「非標準」處理

  • 唔夠流暢:對於 AI 生成嘅動態內容(特別是快速運動),24fps 會顯得有啲「窒」,唔夠絲般順滑

✅ 點解係 30fps?

30fps 係最佳平衡點:

1. 完美嘅插幀倍數

假設原始生成係 15fps(WanVideo 2.2 常見輸出):

15 fps×2=30 fps(完美 2x 插幀)15 \text{ fps} \times 2 = 30 \text{ fps} \quad \text{(完美 2x 插幀)} 15 fps×2=30 fps(完美 2x 插幀)

RIFE 只需要喺每兩幀之間插入一幀(t=0.5t=0.5t=0.5),呢個係最簡單、最準確嘅插幀方式,唔會有不均勻分配嘅問題。

2. 行業標準 + 兼容性

  • NTSC 標準:30fps (準確嚟講係 29.97fps) 係北美、日本、台灣等地嘅電視標準

  • 網絡平台原生支援:YouTube、Vimeo、TikTok、Instagram 都完美支援 30fps

  • 編碼器優化:H.264、H.265、VP9、AV1 等主流編碼器都針對 30fps 優化,編碼效率最高

3. 顯示器完美匹配

大部分顯示器係 60Hz:

60 Hz÷30 fps=2(每幀顯示 2 次,完美整除)60 \text{ Hz} \div 30 \text{ fps} = 2 \quad \text{(每幀顯示 2 次,完美整除)} 60 Hz÷30 fps=2(每幀顯示 2 次,完美整除)

冇 judder(畫面抖動),播放絲般順滑。

4. 視覺體驗最佳

  • 比 24fps 流暢,但又唔會有 60fps 嘅「過度流暢」感

  • 保留咗適度嘅 motion blur,維持電影感

  • 適合大部分 AI 生成影片嘅內容風格

❌ 點解唔係 32fps?

雖然 32 係 2 嘅次方,睇落「整齊」,但有嚴重問題:

  • Soap Opera Effect:32fps 處於「唔上唔落」嘅尷尬位置,太流暢但又唔夠 60fps,會令影片失去電影感,睇落好似低成本肥皂劇

  • 非標準幀率:主流平台同編碼器冇針對 32fps 優化,可能導致:

  • 顯示器 judder:

60 Hz÷32 fps=1.875(唔整除,產生畫面抖動)60 \text{ Hz} \div 32 \text{ fps} = 1.875 \quad \text{(唔整除,產生畫面抖動)} 60 Hz÷32 fps=1.875(唔整除,產生畫面抖動)

❌ 點解唔係 60fps?

60fps 好流暢,但對於 AI 影片生成有幾個實際問題:

1. 運算成本爆炸

假設原始係 15fps,要插到 60fps:

15 fps×4=60 fps(需要 4x 插幀)15 \text{ fps} \times 4 = 60 \text{ fps} \quad \text{(需要 4x 插幀)} 15 fps×4=60 fps(需要 4x 插幀)
  • RIFE 需要生成 3 倍 嘅中間幀(相比 30fps 只需要 1 倍)

  • 處理時間同顯存用量會大幅增加

  • 對於長影片(例如 60 秒),60fps = 3600 幀,運算量難以承受

2. Soap Opera Effect 嚴重

  • 60fps 會令電影級內容完全失去 cinematic look

  • 睇落好似「現場直播」或「遊戲畫面」,而唔係精心製作嘅影片

  • 除非你係特意追求超流暢嘅遊戲風格,否則 60fps 會破壞美感

3. 檔案大小同串流壓力

  • 60fps 影片檔案大小係 30fps 嘅接近 2 倍

  • 串流平台(YouTube 等)會用更高 bitrate,增加上傳同播放負擔

4. AI 生成嘅局限性

  • WanVideo 2.2 原生輸出通常係 15-16fps,插到 60fps 意味住 75% 嘅幀都係 AI 腦補出嚟

  • 插幀比例越高,RIFE 嘅錯誤累積風險越大,可能出現 artifacts、重影、動作扭曲

總結對比表:

幀率優點缺點適用場景
24fps電影標準、檔案細唔夠流暢、插幀倍數唔理想追求極致電影感嘅靜態鏡頭
30fps ✅完美插幀倍數、兼容性最佳、流暢度適中無明顯缺點大部分 AI 影片生成(推薦)
32fps2 嘅次方(數學上整齊)Soap Opera Effect、非標準、judder唔建議使用
60fps極致流暢運算成本高、Soap Opera Effect、檔案大遊戲風格、運動影片、技術展示

結論:30fps 係 AI 影片生成嘅黃金標準,平衡咗流暢度、運算成本、兼容性同視覺美感。除非你有特殊需求,否則 30fps 係最穩陣嘅選擇。

常見問題 (FAQ)

Q1: 我可唔可以只用一個專家模型?

可以,但質素會大打折扣。單一模型要同時處理高噪點同低噪點環境,往往會顧此失彼,出現動作僵硬或者細節模糊嘅問題。

Q2: Split Steps 設幾多先啱?

冇標準答案,視乎你想要咩效果:

  • 追求流暢動作:Split 得早啲(例如 1-2),俾多啲步數 HN 專家
  • 追求細節質感:Split 得遲啲(例如 3),俾多啲步數 LN 專家
  • 平衡:Total Steps 嘅中間位(例如 Steps=4 就 Split=2)

Q3: 點解要用 Lightning LoRA?

原本嘅 diffusion 模型可能需要 50-100 步先生成到高質素影片。Lightning LoRA 係專門訓練嚟「加速」呢個過程,將步數壓縮到 4-8 步,大幅減少生成時間,但保持相若質素。

Q4: 我嘅顯卡唔夠強,點算?

工作流已經有好多優化技術:

  • fp8 量化:減少記憶體用量
  • Block Swap:將唔用嘅模型層暫存到 RAM
  • 減少 Steps:用更少步數(但可能影響質素)
  • 如果仲係唔夠,可以考慮用雲端 GPU 服務

總結

WanVideo 2.2 嘅呢個工作流,完美詮釋咗現代 AI 技術嘅複雜與精妙。佢唔再係簡單嘅「輸入文字,輸出影片」,而係一場涉及多模型協作、潛空間深度漫遊以及精密步數控制嘅交響樂。

核心要點回顧:

  1. MoE 架構:兩個專家模型分別負責結構動作同細節質感
  2. 極限優化:fp8 量化 + Block Swap + Lightning LoRA 令消費級顯卡都跑得郁
  3. 精確分工:透過 Split Steps 控制兩個專家嘅交棒時機
  4. 智能插幀:RIFE 將低幀率影片提升到絲般順滑

何時用 WanVideo 2.2?

  • ✅ 需要電影級質感嘅 AI 影片生成
  • ✅ 追求動態連貫性同細節質量嘅平衡
  • ✅ 有一定 ComfyUI 使用經驗,願意調校複雜工作流
  • ❌ 只係想快速生成簡單影片(可以考慮其他更簡單嘅工具)

雖然設定繁瑣,但當你理解咗「雙專家接力」嘅核心邏輯,並且見到最終生成嗰段既有大幅度流暢動作、又有電影級細膩質感嘅影片時,你會發覺,呢一切嘅折騰都係值得嘅。

相關資源

  • 💻 ComfyUI:Official GitHub
  • 🎬 WanVideo 2.2 模型:Check HuggingFace for official releases
  • 🔧 RIFE:Real-Time Intermediate Flow Estimation
  • 📚 Mixture-of-Experts:Understanding MoE architecture in AI systems
Back to all articles
目錄