解構 WanVideo 2.2：雙專家接力嘅 AI 影片生成工作流

喺 AI 影片生成領域，WanVideo 2.2 嘅橫空出世帶嚟咗令人驚嘆嘅電影級質感同動態連貫性。但係當你打開佢個 ComfyUI 工作流，會見到兩個模型加載器、兩個採樣器串聯埋一齊，仲有個神秘嘅「Split Steps」參數。點解要搞到咁複雜？今日我哋就嚟深度解構呢個「雙專家接力」嘅工作流，睇下一張靜態圖片係點樣喺潛空間中一步步「動」起嚟。

TL;DR

核心重點：

🎯 MoE 架構：WanVideo 2.2 用咗 Mixture-of-Experts 設計，將生成工作分俾兩個專家模型
✅ 高噪點專家 (HN)：負責定義動作結構同運鏡，專攻「動得對唔對」
✅ 低噪點專家 (LN)：負責細節質感同降噪，專攻「睇落真唔真」
⚡ Lightning LoRA：將原本 50 步嘅生成壓縮到 4-8 步
🎬 RIFE 插幀：將低幀率影片提升到絲般順滑嘅觀感

核心哲學：咩係 Mixture-of-Experts 架構
第一階段：啟動引擎與極限優化
第二階段：潛空間中嘅接力賽
第三階段：從潛影到流暢影片
總結
相關資源

核心哲學：咩係 Mixture-of-Experts 架構

呢個工作流之所以望落咁複雜，根本原因係 WanVideo 2.2 採用咗先進嘅 Mixture-of-Experts (MoE) 架構。

傳統嘅 AI 模型通常係一位「全能通才」，由頭到尾負責生成所有內容。但 WanVideo 2.2 認為術業有專攻，所以將生成過程拆解，交俾兩位性格迥異嘅「專家模型」接力完成。

🎯 核心概念：雙專家分工
WanVideo 2.2 將影片生成分成兩個階段，每個階段由專門訓練嘅模型負責：

高噪點專家 (High-Noise Expert, HN)：「結構與動作大師」

低噪點專家 (Low-Noise Expert, LN)：「細節與質感大師」

高噪點專家 (HN)：結構與動作大師

喺生成嘅最初階段，畫面充滿雜訊時，HN 負責大刀闊斧咁勾勒出物體嘅輪廓、確定人物嘅動作軌跡同鏡頭嘅運動方式。佢唔拘小節，只係在乎畫面「動得對唔對」。

低噪點專家 (LN)：細節與質感大師

當骨架搭建完畢，LN 接手工作，負責消除殘餘嘅雜訊，精細咁描繪皮膚紋理、衣物褶皺同光影反射。佢專注於令畫面「睇落真唔真」。

喺你嘅工作流中，你需要分別加載呢兩個巨大嘅模型文件，呢個就係一切複雜性嘅起點。

第一階段：啟動引擎與極限優化

喺開始生成之前，工作流嘅前半部分都係做準備工作。為咗令消費級顯卡都跑得郁呢兩位龐大嘅專家，我哋用上咗各種「黑科技」。

T5 XXL：新一代文字編碼器

首先，你輸入嘅文字提示詞（prompt）需要被 AI 理解。喺 WanVideo 2.2 入面，呢個工作由 T5 XXL (Text-To-Text Transfer Transformer) 負責，佢係傳統 CLIP 嘅升級版。

傳統 CLIP vs T5 XXL：點解唔再需要逗號？

如果你用過舊版嘅 AI 影片生成工具，你可能習慣咗要將 prompt 用逗號分隔，好似咁：

javascript傳統 CLIP prompt:
"a man, running on the beach, sunset, cinematic lighting, 4k"

點解要用逗號？因為 傳統 CLIP 唔太識理解句子結構，佢將每個逗號分隔嘅部分當成獨立嘅「關鍵詞」嚟處理。就好似你同一個唔太識中文嘅人溝通，要逐個詞逐個詞咁講。

但 T5 XXL 係一個真正嘅語言模型，佢識得理解完整嘅自然語言句子！而家你可以咁寫：

javascriptT5 XXL prompt:
"一個男人在日落時分於海邊奔跑，電影級打光效果"

💡 T5 XXL 嘅三大優勢
1. 理解句子結構

傳統 CLIP：「男人, 海邊, 跑步」→ 三個獨立概念

T5 XXL：「一個男人在海邊跑步」→ 理解「男人」係主體，「跑步」係動作，「海邊」係地點

2. 理解語境同關係

傳統 CLIP：「紅色, 汽車, 快速」→ 可能生成紅色背景 + 汽車 + 快速移動嘅雲

T5 XXL：「一架快速行駛的紅色汽車」→ 知道「紅色」係修飾「汽車」，「快速」係形容「行駛」

3. 支援更長更複雜嘅描述

傳統 CLIP：通常限制喺 77 個 tokens

T5 XXL：支援更長嘅描述，而且唔會混亂

實際例子對比：

假設你想生成「一個女孩喺櫻花樹下溫柔咁對住鏡頭微笑」：

編碼器	Prompt 寫法	生成結果
傳統 CLIP	`girl, cherry blossom, smiling, gentle, camera`	可能將「gentle」理解成「溫柔嘅櫻花」而唔係「溫柔嘅微笑」
T5 XXL	`一個女孩在櫻花樹下溫柔地對著鏡頭微笑`	正確理解「溫柔」係修飾「微笑」，「櫻花樹下」係場景

數學上嘅分別：

傳統 CLIP 編碼：

c = \text{CLIP}(\text{"word1, word2, word3"})

T5 XXL 編碼：

c = \text{T5-XXL}(\text{"complete natural sentence"})

where:

$c$ : 文字編碼向量（引導訊號）
T5-XXL 保留咗句子嘅語法結構同語義關係

點解仲有人用逗號？

你可能會見到有啲人仲係習慣用逗號分隔 prompt。呢個唔係必需，但有時係為咗：

強調某啲關鍵詞：用逗號隔開可以令 AI 更注意某個元素
舊習慣：從 Stable Diffusion / Midjourney 時代帶過嚟嘅寫法

但喺 WanVideo 2.2 用 T5 XXL 嘅情況下，自然語言句子通常效果更好。

VAE：潛空間嘅翻譯官

VAE (Variational Autoencoder) 係整個工作流嘅「翻譯官」，佢有兩個關鍵職責：

編碼 (Encode)：將你嘅輸入圖片壓縮成「潛空間 (Latent Space)」數據：

z = \text{Encoder}(x)

where:

$x$ : 輸入圖片（像素空間），維度例如 $3 \times 1920 \times 1080$
$z$ : 潛空間表示，維度大約係 $4 times 120 times 68$ （壓縮咗 64 倍！）

解碼 (Decode)：將潛空間數據還原返做像素圖像：

\hat{x} = \text{Decoder}(z)

where:

$hat{x}$ : 重建嘅圖片，應該盡量接近原始 $x$

潛空間係一個低維度嘅抽象表示，就好似將一幅 1920×1080 嘅圖片壓縮成一個細好多嘅「概念地圖」。AI 模型喺呢個空間入面工作，可以大幅減少運算量。

💡 點解要用潛空間？
如果直接喺像素層面生成影片，運算量會大到難以想像。透過 VAE 壓縮到潛空間，我哋可以用少好多嘅記憶體同運算資源，同時保持高質素嘅生成效果。

邊個決定影片質素？模型 vs VAE

好多人會問：究竟係 AI 模型定係 VAE 決定最終影片質素？答案係：兩者都重要，但負責唔同嘅野。

用餐廳比喻：

想像你去一間餐廳食飯：

AI 模型（HN + LN 專家）= 廚師：決定「煮咩菜、點樣擺盤、味道點樣」
VAE = 餐具同餐碟：決定「你最終見到同食到嘅質素上限」

🎯 各個組件嘅職責
1. VAE 決定「畫質上限」（硬件限制）

就好似相機鏡頭：鏡頭質素差，影出嚟一定矇

VAE 如果訓練得唔好，就算模型生成得幾完美，解碼出嚟都會「走樣」

例子：如果 VAE 只能處理 480p，就算模型想生成 4K 都冇用

2. AI 模型決定「內容質素」（創作能力）

就好似攝影師：決定構圖、光影、動作

高噪點專家決定「點樣郁、郁成點」

低噪點專家決定「細節靚唔靚、真唔真」

例子：就算 VAE 支援 4K，模型如果生成嘅動作僵硬，影片都唔會好睇

3. CLIP 決定「理解能力」（溝通橋樑）

就好似翻譯：將你嘅要求翻譯俾廚師聽

CLIP 如果理解錯你嘅 prompt，成個生成都會偏晒

例子：你講「海邊跑步」，CLIP 理解成「海灘散步」，出嚟就唔啱

4. RIFE 決定「流暢度」（後期加工）

就好似影片剪接師：補充中間幀令動作更順滑

唔影響畫質，只係影響「睇落幾流暢」

例子：15fps 睇起嚟一格格，RIFE 插幀到 30fps 就絲般順滑

實際案例分析：

假設你想生成「一個人喺海邊跑步」嘅影片：

組件	如果佢出問題...	結果會點
CLIP	理解錯 prompt	可能生成「游水」而唔係「跑步」
VAE Encoder	壓縮時失真	輸入圖片嘅細節流失，影響後續生成
HN 模型	訓練唔足	跑步動作唔自然、僵硬
LN 模型	訓練唔足	人物面部模糊、衣服質感差
VAE Decoder	解碼唔好	就算模型生成得好，解碼出嚟都會「走樣」、有artifacts
RIFE	插幀失敗	動作流暢度差，但畫質唔受影響

結論：木桶效應

影片質素由「最弱嘅一環」決定。就好似一個木桶，最短嗰塊木板決定咗能裝幾多水：

VAE 好但模型差 → 高清嘅垃圾內容
模型好但 VAE 差 → 低清嘅優質內容
兩者都好 → 電影級質素 ✨

量化與交換 (Quantization & Block Swap)

我哋將模型精度壓縮至 fp8，並且啟用 Block Swap 技術，令暫時唔用嘅模型層動態咁喺顯存 (VRAM) 同內存 (RAM) 之間搬運，榨乾每一滴硬體效能。

Lightning LoRA 嘅魔法

呢個係工作流能夠「飛快」運行嘅關鍵。原本 WanVideo 可能需要 50 步先生成到高品質影片，但透過掛載專門訓練嘅 Lightning LoRA，我哋將所需嘅總步數 (Steps) 奇蹟般咁壓縮到咗 4 到 8 步。

⚠️ 注意
呢兩位專家需要分別掛載對應嘅 HIGH 版同 LOW 版 LoRA。如果掛錯咗，會影響生成質素。

第二階段：潛空間中嘅接力賽

一切準備就緒之後，圖片被編碼器轉換成 AI 能夠理解嘅「潛空間 (Latent Space)」數據。接落嚟，就係見證奇蹟嘅時刻——雙採樣器接力。

你會見到兩個串聯嘅 KSamplerAdvanced 節點，佢哋共享同一份潛空間數據，就好似接力賽跑中嘅兩名運動員傳遞同一根接力棒。呢場比賽嘅規則由 Steps (總步數) 同 Split Steps (分割步數) 制定。

理解降噪過程：由雜訊到清晰

要理解點解需要兩個專家，首先要明白 AI 影片生成係一個 降噪 (denoising) 過程：

起點（100% 雜訊）：潛空間數據一開始係完全嘅隨機雜訊，完全睇唔到任何有意義嘅內容
終點（0% 雜訊）：經過多步處理後，雜訊被完全消除，變成清晰嘅影片畫面

降噪過程嘅數學表示：

z_t = \sqrt{\alpha_t} \cdot z_0 + \sqrt{1 - \alpha_t} \cdot \epsilon

where:

$z_t$ : 第 $t$ 步嘅潛空間數據
$z_0$ : 最終生成嘅清晰影片（潛空間表示）
$epsilon$ : 隨機雜訊，服從標準正態分佈 $\mathcal{N}(0, I)$
$alpha_t$ : 噪點調度參數，由 1 遞減到 0
$t$ : 時間步，由 $T$ (最大噪點) 遞減到 0 (無噪點)

當 $t = T$ (起點)： $alpha_T approx 0$ ，所以 $z_T \approx \epsilon$ (純雜訊)

當 $t = 0$ (終點)： $alpha_0 = 1$ ，所以 $z_0$ 就係最終清晰影片

呢個降噪過程，唔同階段需要處理嘅問題完全唔同：

高噪點階段（雜訊多）：

畫面仲係一團模糊，需要決定「邊度係天空、邊度係人、邊度係地面」
重點係建立 大框架：物體位置、動作方向、鏡頭運動
唔需要理會細節，只係做「粗胚」

低噪點階段（雜訊少）：

大框架已經定咗，需要精修細節
重點係消除殘餘雜訊，補充 紋理同質感：皮膚毛孔、衣服褶皺、光影細節
確保最終輸出睇落真實自然

🎯 點解唔用一個模型做晒？
一個模型如果要同時處理「建立結構」同「精修細節」，往往會：

喺高噪點階段過份關注細節，導致整體結構混亂（動作僵硬）

喺低噪點階段仲嘗試改結構，導致細節崩壞（畫面模糊）

分工專精，先可以兩者兼得。

實際例子：Steps = 4, Split_step = 2

假設我哋設定 Steps = 4，Split_step = 2，睇下呢場接力賽係點樣進行：

第一棒：高噪點專家嘅衝刺 (Step 0 → Step 2)

噪點水平：100% → 50%（由完全雜訊到初見輪廓）

第一個採樣器（連接 HN 模型）率先起跑。喺最初嘅 2 步入面，佢專注處理 高噪點環境：

佢做緊咩？

從一團雜訊中「分辨」出邊度應該係人、邊度係背景
確定人物嘅動作軌跡（例如：由左行到右、跑步姿勢）
決定鏡頭運動（例如：固定鏡頭 vs 跟拍）
建立影片嘅整體構圖同動態節奏

佢唔理咩？

人物面部細節（眼睛、鼻、口）
衣服質感（布料紋理、褶皺）
光影細節（高光、陰影過渡）

呢個階段嘅輸出：如果你喺 Step 2 之後解碼出嚟睇，你會見到動作已經成型，物體輪廓清晰可見，但畫面好似「隔住毛玻璃」咁模糊。

關鍵嘅「交棒時刻」(The Handoff)

噪點水平：50%（框架已定，但細節模糊）

喺第 2 步結束嘅瞬間，第一個採樣器停低，將經過初步處理嘅潛空間數據，原封不動咁傳遞俾第二個採樣器。呢個時候，大結構已經鎖定，唔會再大幅改變。

第二棒：低噪點專家嘅精修 (Step 2 → End)

噪點水平：50% → 0%（由模糊到電影級清晰）

第二個採樣器（連接 LN 模型）接過數據，由第 2 步開始繼續跑。佢專注處理 低噪點環境：

佢做緊咩？

消除殘餘雜訊，令畫面由模糊變清晰
補充皮膚紋理（毛孔、皺紋、膚色過渡）
精修衣服質感（布料質感、褶皺、反光）
調整光影細節（高光位、陰影、環境光反射）
確保每一幀嘅細節都自然流暢

佢唔會做咩？

改變物體位置或動作軌跡（框架已定）
大幅調整構圖或鏡頭運動

呢個階段嘅輸出：最終生成嘅影片，既有流暢嘅動作，又有電影級嘅細節質感。

💡 Split Steps 點樣決定交棒時機？
Split_step = 2 意思係：

Step 0-1：高噪點專家處理（100% → 75% → 50% 雜訊）

Step 2-3：低噪點專家處理（50% → 25% → 0% 雜訊）

數學上嘅定義：
$z_{t-1} = \begin{cases} \text{HN-Expert}(z_t, t, c) & \text{if } t > s \\ \text{LN-Expert}(z_t, t, c) & \text{if } t \leq s \end{cases}$
where:

$s$ : Split step（交棒時刻）

$c$ : CLIP 文字編碼（引導訊號）

HN-Expert: 高噪點專家模型

LN-Expert: 低噪點專家模型

點樣調校？

Split 得早（例如 $s = 1$ ）：更著重動態流暢度

Split 得遲（例如 $s = 3$ ）：更著重細節質感

第三階段：從潛影到流暢影片

當第二位專家完成工作之後，我哋得到嘅依然係人類睇唔明嘅潛空間數據。最後一步，我哋需要將佢「翻譯」返嚟。

VAE 解碼：潛空間返回現實

VAE 解碼器將潛空間數據「還原」返我哋肉眼可見嘅像素圖像序列。記得喺第一階段，VAE 將圖片壓縮成抽象嘅潛空間數據？而家佢做返相反嘅工作，將經過兩位專家精心雕琢嘅潛空間數據，逐幀咁轉換成真實嘅影片畫面。

呢個時候，我哋已經得到咗一段連貫嘅影片，但佢嘅幀率 (FPS) 可能較低，睇起嚟有啲卡頓。

RIFE 智能插幀 (Frame Interpolation)

為咗獲得絲般順滑嘅觀感，我哋將解碼後嘅影片送入 RIFE VFI 節點。呢個係一個 AI 模型，佢會分析前後兩幀畫面，並且「腦補」出中間缺失嘅過渡幀，將原本可能只有 15fps 嘅影片提升到 30fps 甚至更高。

RIFE 嘅數學原理：

I_t = \text{RIFE}(I_0, I_1, t)

where:

$I_0$ : 起始幀（時間 $t=0$ ）
$I_1$ : 結束幀（時間 $t=1$ ）
$I_t$ : 中間幀（時間 $t in (0, 1)$ ），例如 $t=0.5$ 就係正中間嘅一幀
RIFE: Real-time Intermediate Flow Estimation 模型

RIFE 使用咗光流估計 (optical flow estimation) 技術，能夠智能咁預測物體移動軌跡，生成自然流暢嘅中間幀。例如要將 15fps 提升到 30fps，RIFE 會喺每兩幀之間插入一幀（ $t=0.5$ ）。

🎬 咩係 Soap Opera Effect（肥皂劇效應）？
Soap Opera Effect 係一種視覺現象，當影片幀率過高或者人工插幀過度時，電影級內容會失去「電影感」，反而睇落好似廉價嘅電視劇或者現場直播咁。

點解會發生？

1. Motion Blur（動態模糊）嘅消失

傳統電影攝影機用 shutter speed 拍攝，每一幀都會捕捉一段時間內嘅運動，產生自然嘅 motion blur：
$\text{Motion Blur} = \frac{\text{Shutter Speed}}{\text{Frame Rate}}$
例如 24fps 電影，每幀曝光時間約 1/48 秒，快速移動嘅物體會有自然模糊。

但當你用 AI 插幀到 60fps 時：

原本 24 幀係真實拍攝（有 motion blur）

新插入嘅 36 幀係 AI 生成（冇 motion blur，過份清晰）

結果：每個動作都變得「過度銳利」，失去電影嘅夢幻感

2. 大腦嘅視覺期望

我哋嘅大腦經過幾十年訓練，將唔同幀率同唔同內容類型連結埋一齊：

24fps = 電影院、大製作、藝術感

30fps = 電視劇、網絡影片、日常內容

60fps = 新聞直播、真人騷、體育比賽、廉價肥皂劇

當你用 60fps 播放電影內容時，大腦會誤以為「呢個係直播」或者「呢個係低成本製作」，破壞咗沉浸感。

3. 點解叫「肥皂劇」效應？

早期電視肥皂劇（soap opera）為咗節省成本，用 video camera 而唔係 film camera 拍攝：

Film camera：24fps，有 motion blur，有電影感

Video camera：30fps 或 60fps（interlaced），過度清晰，冇 motion blur

所以「肥皂劇」嘅視覺特徵就係「太清晰、太流暢、冇電影感」，呢個就係 Soap Opera Effect 嘅由來。

實際例子：

想像《指環王》三部曲：

原版 24fps：史詩感、夢幻、你感受到「呢個係中土世界」

插幀到 60fps：睇落好似「演員喺片場做戲」，所有魔法感消失，變成「真人騷」

點樣避免？

用標準幀率（24fps 或 30fps），唔好盲目追求「更流暢」

如果一定要插幀，用 2x 倍數（15 → 30，24 → 48），避免奇怪幀率

對於電影級 AI 內容，30fps 係最安全嘅選擇

⚠️ 點解係 30fps？點解唔係 24、32 或 60fps？
你可能會問：點解偏偏係 30fps？其他幀率有咩問題？讓我哋逐個分析。

❌ 點解唔係 24fps？

24fps 係電影標準幀率，但對於 AI 生成影片嚟講有幾個問題：

Soap Opera Effect 風險：如果原始生成係 15-16fps，插幀到 24fps 嘅倍數關係唔理想（15 → 24 = 1.6x），RIFE 需要做唔均勻嘅插幀，容易產生視覺 artifacts

網絡平台唔友好：YouTube、社交媒體平台嘅主流係 30fps 或 60fps，24fps 會被某啲播放器當成「非標準」處理

唔夠流暢：對於 AI 生成嘅動態內容（特別是快速運動），24fps 會顯得有啲「窒」，唔夠絲般順滑

✅ 點解係 30fps？

30fps 係最佳平衡點：

1. 完美嘅插幀倍數

假設原始生成係 15fps（WanVideo 2.2 常見輸出）：
$15 \text{ fps} \times 2 = 30 \text{ fps} \quad \text{(完美 2x 插幀)}$
RIFE 只需要喺每兩幀之間插入一幀（ $t=0.5$ ），呢個係最簡單、最準確嘅插幀方式，唔會有不均勻分配嘅問題。

2. 行業標準 + 兼容性

NTSC 標準：30fps (準確嚟講係 29.97fps) 係北美、日本、台灣等地嘅電視標準

網絡平台原生支援：YouTube、Vimeo、TikTok、Instagram 都完美支援 30fps

編碼器優化：H.264、H.265、VP9、AV1 等主流編碼器都針對 30fps 優化，編碼效率最高

3. 顯示器完美匹配

大部分顯示器係 60Hz：
$60 \text{ Hz} \div 30 \text{ fps} = 2 \quad \text{(每幀顯示 2 次，完美整除)}$
冇 judder（畫面抖動），播放絲般順滑。

4. 視覺體驗最佳

比 24fps 流暢，但又唔會有 60fps 嘅「過度流暢」感

保留咗適度嘅 motion blur，維持電影感

適合大部分 AI 生成影片嘅內容風格

❌ 點解唔係 32fps？

雖然 32 係 2 嘅次方，睇落「整齊」，但有嚴重問題：

Soap Opera Effect：32fps 處於「唔上唔落」嘅尷尬位置，太流暢但又唔夠 60fps，會令影片失去電影感，睇落好似低成本肥皂劇

非標準幀率：主流平台同編碼器冇針對 32fps 優化，可能導致：

顯示器 judder：

$60 \text{ Hz} \div 32 \text{ fps} = 1.875 \quad \text{(唔整除，產生畫面抖動)}$
❌ 點解唔係 60fps？

60fps 好流暢，但對於 AI 影片生成有幾個實際問題：

1. 運算成本爆炸

假設原始係 15fps，要插到 60fps：
$15 \text{ fps} \times 4 = 60 \text{ fps} \quad \text{(需要 4x 插幀)}$

RIFE 需要生成 3 倍 嘅中間幀（相比 30fps 只需要 1 倍）

處理時間同顯存用量會大幅增加

對於長影片（例如 60 秒），60fps = 3600 幀，運算量難以承受

2. Soap Opera Effect 嚴重

60fps 會令電影級內容完全失去 cinematic look

睇落好似「現場直播」或「遊戲畫面」，而唔係精心製作嘅影片

除非你係特意追求超流暢嘅遊戲風格，否則 60fps 會破壞美感

3. 檔案大小同串流壓力

60fps 影片檔案大小係 30fps 嘅接近 2 倍

串流平台（YouTube 等）會用更高 bitrate，增加上傳同播放負擔

4. AI 生成嘅局限性

WanVideo 2.2 原生輸出通常係 15-16fps，插到 60fps 意味住 75% 嘅幀都係 AI 腦補出嚟

插幀比例越高，RIFE 嘅錯誤累積風險越大，可能出現 artifacts、重影、動作扭曲

總結對比表：

幀率優點缺點適用場景
24fps 電影標準、檔案細唔夠流暢、插幀倍數唔理想追求極致電影感嘅靜態鏡頭
30fps ✅ 完美插幀倍數、兼容性最佳、流暢度適中無明顯缺點 大部分 AI 影片生成（推薦）
32fps 2 嘅次方（數學上整齊） Soap Opera Effect、非標準、judder 唔建議使用
60fps 極致流暢運算成本高、Soap Opera Effect、檔案大遊戲風格、運動影片、技術展示

結論：30fps 係 AI 影片生成嘅黃金標準，平衡咗流暢度、運算成本、兼容性同視覺美感。除非你有特殊需求，否則 30fps 係最穩陣嘅選擇。

幀率	優點	缺點	適用場景
24fps	電影標準、檔案細	唔夠流暢、插幀倍數唔理想	追求極致電影感嘅靜態鏡頭
30fps ✅	完美插幀倍數、兼容性最佳、流暢度適中	無明顯缺點	大部分 AI 影片生成（推薦）
32fps	2 嘅次方（數學上整齊）	Soap Opera Effect、非標準、judder	唔建議使用
60fps	極致流暢	運算成本高、Soap Opera Effect、檔案大	遊戲風格、運動影片、技術展示

常見問題 (FAQ)

Q1: 我可唔可以只用一個專家模型？

可以，但質素會大打折扣。單一模型要同時處理高噪點同低噪點環境，往往會顧此失彼，出現動作僵硬或者細節模糊嘅問題。

Q2: Split Steps 設幾多先啱？

冇標準答案，視乎你想要咩效果：

追求流暢動作：Split 得早啲（例如 1-2），俾多啲步數 HN 專家
追求細節質感：Split 得遲啲（例如 3），俾多啲步數 LN 專家
平衡：Total Steps 嘅中間位（例如 Steps=4 就 Split=2）

Q3: 點解要用 Lightning LoRA？

原本嘅 diffusion 模型可能需要 50-100 步先生成到高質素影片。Lightning LoRA 係專門訓練嚟「加速」呢個過程，將步數壓縮到 4-8 步，大幅減少生成時間，但保持相若質素。

Q4: 我嘅顯卡唔夠強，點算？

工作流已經有好多優化技術：

fp8 量化：減少記憶體用量
Block Swap：將唔用嘅模型層暫存到 RAM
減少 Steps：用更少步數（但可能影響質素）
如果仲係唔夠，可以考慮用雲端 GPU 服務

總結

WanVideo 2.2 嘅呢個工作流，完美詮釋咗現代 AI 技術嘅複雜與精妙。佢唔再係簡單嘅「輸入文字，輸出影片」，而係一場涉及多模型協作、潛空間深度漫遊以及精密步數控制嘅交響樂。

核心要點回顧：

MoE 架構：兩個專家模型分別負責結構動作同細節質感
極限優化：fp8 量化 + Block Swap + Lightning LoRA 令消費級顯卡都跑得郁
精確分工：透過 Split Steps 控制兩個專家嘅交棒時機
智能插幀：RIFE 將低幀率影片提升到絲般順滑

何時用 WanVideo 2.2？

✅ 需要電影級質感嘅 AI 影片生成
✅ 追求動態連貫性同細節質量嘅平衡
✅ 有一定 ComfyUI 使用經驗，願意調校複雜工作流
❌ 只係想快速生成簡單影片（可以考慮其他更簡單嘅工具）

雖然設定繁瑣，但當你理解咗「雙專家接力」嘅核心邏輯，並且見到最終生成嗰段既有大幅度流暢動作、又有電影級細膩質感嘅影片時，你會發覺，呢一切嘅折騰都係值得嘅。

TL;DR

核心重點：

🎯 MoE 架構：WanVideo 2.2 用咗 Mixture-of-Experts 設計，將生成工作分俾兩個專家模型
✅ 高噪點專家 (HN)：負責定義動作結構同運鏡，專攻「動得對唔對」
✅ 低噪點專家 (LN)：負責細節質感同降噪，專攻「睇落真唔真」
⚡ Lightning LoRA：將原本 50 步嘅生成壓縮到 4-8 步
🎬 RIFE 插幀：將低幀率影片提升到絲般順滑嘅觀感

核心哲學：咩係 Mixture-of-Experts 架構
第一階段：啟動引擎與極限優化
第二階段：潛空間中嘅接力賽
第三階段：從潛影到流暢影片
總結
相關資源

核心哲學：咩係 Mixture-of-Experts 架構

呢個工作流之所以望落咁複雜，根本原因係 WanVideo 2.2 採用咗先進嘅 Mixture-of-Experts (MoE) 架構。

🎯 核心概念：雙專家分工
WanVideo 2.2 將影片生成分成兩個階段，每個階段由專門訓練嘅模型負責：

高噪點專家 (High-Noise Expert, HN)：「結構與動作大師」

低噪點專家 (Low-Noise Expert, LN)：「細節與質感大師」

高噪點專家 (HN)：結構與動作大師

低噪點專家 (LN)：細節與質感大師

當骨架搭建完畢，LN 接手工作，負責消除殘餘嘅雜訊，精細咁描繪皮膚紋理、衣物褶皺同光影反射。佢專注於令畫面「睇落真唔真」。

喺你嘅工作流中，你需要分別加載呢兩個巨大嘅模型文件，呢個就係一切複雜性嘅起點。

第一階段：啟動引擎與極限優化

喺開始生成之前，工作流嘅前半部分都係做準備工作。為咗令消費級顯卡都跑得郁呢兩位龐大嘅專家，我哋用上咗各種「黑科技」。

T5 XXL：新一代文字編碼器

傳統 CLIP vs T5 XXL：點解唔再需要逗號？

如果你用過舊版嘅 AI 影片生成工具，你可能習慣咗要將 prompt 用逗號分隔，好似咁：

javascript傳統 CLIP prompt:
"a man, running on the beach, sunset, cinematic lighting, 4k"

但 T5 XXL 係一個真正嘅語言模型，佢識得理解完整嘅自然語言句子！而家你可以咁寫：

javascriptT5 XXL prompt:
"一個男人在日落時分於海邊奔跑，電影級打光效果"

💡 T5 XXL 嘅三大優勢
1. 理解句子結構

傳統 CLIP：「男人, 海邊, 跑步」→ 三個獨立概念

T5 XXL：「一個男人在海邊跑步」→ 理解「男人」係主體，「跑步」係動作，「海邊」係地點

2. 理解語境同關係

傳統 CLIP：「紅色, 汽車, 快速」→ 可能生成紅色背景 + 汽車 + 快速移動嘅雲

T5 XXL：「一架快速行駛的紅色汽車」→ 知道「紅色」係修飾「汽車」，「快速」係形容「行駛」

3. 支援更長更複雜嘅描述

傳統 CLIP：通常限制喺 77 個 tokens

T5 XXL：支援更長嘅描述，而且唔會混亂

實際例子對比：

假設你想生成「一個女孩喺櫻花樹下溫柔咁對住鏡頭微笑」：

編碼器	Prompt 寫法	生成結果
傳統 CLIP	`girl, cherry blossom, smiling, gentle, camera`	可能將「gentle」理解成「溫柔嘅櫻花」而唔係「溫柔嘅微笑」
T5 XXL	`一個女孩在櫻花樹下溫柔地對著鏡頭微笑`	正確理解「溫柔」係修飾「微笑」，「櫻花樹下」係場景

數學上嘅分別：

傳統 CLIP 編碼：

c = \text{CLIP}(\text{"word1, word2, word3"})

T5 XXL 編碼：

c = \text{T5-XXL}(\text{"complete natural sentence"})

where:

$c$ : 文字編碼向量（引導訊號）
T5-XXL 保留咗句子嘅語法結構同語義關係

點解仲有人用逗號？

你可能會見到有啲人仲係習慣用逗號分隔 prompt。呢個唔係必需，但有時係為咗：

強調某啲關鍵詞：用逗號隔開可以令 AI 更注意某個元素
舊習慣：從 Stable Diffusion / Midjourney 時代帶過嚟嘅寫法

但喺 WanVideo 2.2 用 T5 XXL 嘅情況下，自然語言句子通常效果更好。

VAE：潛空間嘅翻譯官

VAE (Variational Autoencoder) 係整個工作流嘅「翻譯官」，佢有兩個關鍵職責：

編碼 (Encode)：將你嘅輸入圖片壓縮成「潛空間 (Latent Space)」數據：

z = \text{Encoder}(x)

where:

$x$ : 輸入圖片（像素空間），維度例如 $3 \times 1920 \times 1080$
$z$ : 潛空間表示，維度大約係 $4 times 120 times 68$ （壓縮咗 64 倍！）

解碼 (Decode)：將潛空間數據還原返做像素圖像：

\hat{x} = \text{Decoder}(z)

where:

$hat{x}$ : 重建嘅圖片，應該盡量接近原始 $x$

💡 點解要用潛空間？
如果直接喺像素層面生成影片，運算量會大到難以想像。透過 VAE 壓縮到潛空間，我哋可以用少好多嘅記憶體同運算資源，同時保持高質素嘅生成效果。

邊個決定影片質素？模型 vs VAE

好多人會問：究竟係 AI 模型定係 VAE 決定最終影片質素？答案係：兩者都重要，但負責唔同嘅野。

用餐廳比喻：

想像你去一間餐廳食飯：

AI 模型（HN + LN 專家）= 廚師：決定「煮咩菜、點樣擺盤、味道點樣」
VAE = 餐具同餐碟：決定「你最終見到同食到嘅質素上限」

🎯 各個組件嘅職責
1. VAE 決定「畫質上限」（硬件限制）

就好似相機鏡頭：鏡頭質素差，影出嚟一定矇

VAE 如果訓練得唔好，就算模型生成得幾完美，解碼出嚟都會「走樣」

例子：如果 VAE 只能處理 480p，就算模型想生成 4K 都冇用

2. AI 模型決定「內容質素」（創作能力）

就好似攝影師：決定構圖、光影、動作

高噪點專家決定「點樣郁、郁成點」

低噪點專家決定「細節靚唔靚、真唔真」

例子：就算 VAE 支援 4K，模型如果生成嘅動作僵硬，影片都唔會好睇

3. CLIP 決定「理解能力」（溝通橋樑）

就好似翻譯：將你嘅要求翻譯俾廚師聽

CLIP 如果理解錯你嘅 prompt，成個生成都會偏晒

例子：你講「海邊跑步」，CLIP 理解成「海灘散步」，出嚟就唔啱

4. RIFE 決定「流暢度」（後期加工）

就好似影片剪接師：補充中間幀令動作更順滑

唔影響畫質，只係影響「睇落幾流暢」

例子：15fps 睇起嚟一格格，RIFE 插幀到 30fps 就絲般順滑

實際案例分析：

假設你想生成「一個人喺海邊跑步」嘅影片：

組件	如果佢出問題...	結果會點
CLIP	理解錯 prompt	可能生成「游水」而唔係「跑步」
VAE Encoder	壓縮時失真	輸入圖片嘅細節流失，影響後續生成
HN 模型	訓練唔足	跑步動作唔自然、僵硬
LN 模型	訓練唔足	人物面部模糊、衣服質感差
VAE Decoder	解碼唔好	就算模型生成得好，解碼出嚟都會「走樣」、有artifacts
RIFE	插幀失敗	動作流暢度差，但畫質唔受影響

結論：木桶效應

影片質素由「最弱嘅一環」決定。就好似一個木桶，最短嗰塊木板決定咗能裝幾多水：

VAE 好但模型差 → 高清嘅垃圾內容
模型好但 VAE 差 → 低清嘅優質內容
兩者都好 → 電影級質素 ✨

量化與交換 (Quantization & Block Swap)

我哋將模型精度壓縮至 fp8，並且啟用 Block Swap 技術，令暫時唔用嘅模型層動態咁喺顯存 (VRAM) 同內存 (RAM) 之間搬運，榨乾每一滴硬體效能。

Lightning LoRA 嘅魔法

⚠️ 注意
呢兩位專家需要分別掛載對應嘅 HIGH 版同 LOW 版 LoRA。如果掛錯咗，會影響生成質素。

第二階段：潛空間中嘅接力賽

一切準備就緒之後，圖片被編碼器轉換成 AI 能夠理解嘅「潛空間 (Latent Space)」數據。接落嚟，就係見證奇蹟嘅時刻——雙採樣器接力。

理解降噪過程：由雜訊到清晰

要理解點解需要兩個專家，首先要明白 AI 影片生成係一個 降噪 (denoising) 過程：

起點（100% 雜訊）：潛空間數據一開始係完全嘅隨機雜訊，完全睇唔到任何有意義嘅內容
終點（0% 雜訊）：經過多步處理後，雜訊被完全消除，變成清晰嘅影片畫面

降噪過程嘅數學表示：

z_t = \sqrt{\alpha_t} \cdot z_0 + \sqrt{1 - \alpha_t} \cdot \epsilon

where:

$z_t$ : 第 $t$ 步嘅潛空間數據
$z_0$ : 最終生成嘅清晰影片（潛空間表示）
$epsilon$ : 隨機雜訊，服從標準正態分佈 $\mathcal{N}(0, I)$
$alpha_t$ : 噪點調度參數，由 1 遞減到 0
$t$ : 時間步，由 $T$ (最大噪點) 遞減到 0 (無噪點)

當 $t = T$ (起點)： $alpha_T approx 0$ ，所以 $z_T \approx \epsilon$ (純雜訊)

當 $t = 0$ (終點)： $alpha_0 = 1$ ，所以 $z_0$ 就係最終清晰影片

呢個降噪過程，唔同階段需要處理嘅問題完全唔同：

高噪點階段（雜訊多）：

畫面仲係一團模糊，需要決定「邊度係天空、邊度係人、邊度係地面」
重點係建立 大框架：物體位置、動作方向、鏡頭運動
唔需要理會細節，只係做「粗胚」

低噪點階段（雜訊少）：

大框架已經定咗，需要精修細節
重點係消除殘餘雜訊，補充 紋理同質感：皮膚毛孔、衣服褶皺、光影細節
確保最終輸出睇落真實自然

🎯 點解唔用一個模型做晒？
一個模型如果要同時處理「建立結構」同「精修細節」，往往會：

喺高噪點階段過份關注細節，導致整體結構混亂（動作僵硬）

喺低噪點階段仲嘗試改結構，導致細節崩壞（畫面模糊）

分工專精，先可以兩者兼得。

實際例子：Steps = 4, Split_step = 2

假設我哋設定 Steps = 4，Split_step = 2，睇下呢場接力賽係點樣進行：

第一棒：高噪點專家嘅衝刺 (Step 0 → Step 2)

噪點水平：100% → 50%（由完全雜訊到初見輪廓）

第一個採樣器（連接 HN 模型）率先起跑。喺最初嘅 2 步入面，佢專注處理 高噪點環境：

佢做緊咩？

從一團雜訊中「分辨」出邊度應該係人、邊度係背景
確定人物嘅動作軌跡（例如：由左行到右、跑步姿勢）
決定鏡頭運動（例如：固定鏡頭 vs 跟拍）
建立影片嘅整體構圖同動態節奏

佢唔理咩？

人物面部細節（眼睛、鼻、口）
衣服質感（布料紋理、褶皺）
光影細節（高光、陰影過渡）

呢個階段嘅輸出：如果你喺 Step 2 之後解碼出嚟睇，你會見到動作已經成型，物體輪廓清晰可見，但畫面好似「隔住毛玻璃」咁模糊。

關鍵嘅「交棒時刻」(The Handoff)

噪點水平：50%（框架已定，但細節模糊）

第二棒：低噪點專家嘅精修 (Step 2 → End)

噪點水平：50% → 0%（由模糊到電影級清晰）

第二個採樣器（連接 LN 模型）接過數據，由第 2 步開始繼續跑。佢專注處理 低噪點環境：

佢做緊咩？

消除殘餘雜訊，令畫面由模糊變清晰
補充皮膚紋理（毛孔、皺紋、膚色過渡）
精修衣服質感（布料質感、褶皺、反光）
調整光影細節（高光位、陰影、環境光反射）
確保每一幀嘅細節都自然流暢

佢唔會做咩？

改變物體位置或動作軌跡（框架已定）
大幅調整構圖或鏡頭運動

呢個階段嘅輸出：最終生成嘅影片，既有流暢嘅動作，又有電影級嘅細節質感。

💡 Split Steps 點樣決定交棒時機？
Split_step = 2 意思係：

Step 0-1：高噪點專家處理（100% → 75% → 50% 雜訊）

Step 2-3：低噪點專家處理（50% → 25% → 0% 雜訊）

數學上嘅定義：
$z_{t-1} = \begin{cases} \text{HN-Expert}(z_t, t, c) & \text{if } t > s \\ \text{LN-Expert}(z_t, t, c) & \text{if } t \leq s \end{cases}$
where:

$s$ : Split step（交棒時刻）

$c$ : CLIP 文字編碼（引導訊號）

HN-Expert: 高噪點專家模型

LN-Expert: 低噪點專家模型

點樣調校？

Split 得早（例如 $s = 1$ ）：更著重動態流暢度

Split 得遲（例如 $s = 3$ ）：更著重細節質感

第三階段：從潛影到流暢影片

當第二位專家完成工作之後，我哋得到嘅依然係人類睇唔明嘅潛空間數據。最後一步，我哋需要將佢「翻譯」返嚟。

VAE 解碼：潛空間返回現實

呢個時候，我哋已經得到咗一段連貫嘅影片，但佢嘅幀率 (FPS) 可能較低，睇起嚟有啲卡頓。

RIFE 智能插幀 (Frame Interpolation)

RIFE 嘅數學原理：

I_t = \text{RIFE}(I_0, I_1, t)

where:

$I_0$ : 起始幀（時間 $t=0$ ）
$I_1$ : 結束幀（時間 $t=1$ ）
$I_t$ : 中間幀（時間 $t in (0, 1)$ ），例如 $t=0.5$ 就係正中間嘅一幀
RIFE: Real-time Intermediate Flow Estimation 模型

🎬 咩係 Soap Opera Effect（肥皂劇效應）？
Soap Opera Effect 係一種視覺現象，當影片幀率過高或者人工插幀過度時，電影級內容會失去「電影感」，反而睇落好似廉價嘅電視劇或者現場直播咁。

點解會發生？

1. Motion Blur（動態模糊）嘅消失

傳統電影攝影機用 shutter speed 拍攝，每一幀都會捕捉一段時間內嘅運動，產生自然嘅 motion blur：
$\text{Motion Blur} = \frac{\text{Shutter Speed}}{\text{Frame Rate}}$
例如 24fps 電影，每幀曝光時間約 1/48 秒，快速移動嘅物體會有自然模糊。

但當你用 AI 插幀到 60fps 時：

原本 24 幀係真實拍攝（有 motion blur）

新插入嘅 36 幀係 AI 生成（冇 motion blur，過份清晰）

結果：每個動作都變得「過度銳利」，失去電影嘅夢幻感

2. 大腦嘅視覺期望

我哋嘅大腦經過幾十年訓練，將唔同幀率同唔同內容類型連結埋一齊：

24fps = 電影院、大製作、藝術感

30fps = 電視劇、網絡影片、日常內容

60fps = 新聞直播、真人騷、體育比賽、廉價肥皂劇

當你用 60fps 播放電影內容時，大腦會誤以為「呢個係直播」或者「呢個係低成本製作」，破壞咗沉浸感。

3. 點解叫「肥皂劇」效應？

早期電視肥皂劇（soap opera）為咗節省成本，用 video camera 而唔係 film camera 拍攝：

Film camera：24fps，有 motion blur，有電影感

Video camera：30fps 或 60fps（interlaced），過度清晰，冇 motion blur

所以「肥皂劇」嘅視覺特徵就係「太清晰、太流暢、冇電影感」，呢個就係 Soap Opera Effect 嘅由來。

實際例子：

想像《指環王》三部曲：

原版 24fps：史詩感、夢幻、你感受到「呢個係中土世界」

插幀到 60fps：睇落好似「演員喺片場做戲」，所有魔法感消失，變成「真人騷」

點樣避免？

用標準幀率（24fps 或 30fps），唔好盲目追求「更流暢」

如果一定要插幀，用 2x 倍數（15 → 30，24 → 48），避免奇怪幀率

對於電影級 AI 內容，30fps 係最安全嘅選擇

⚠️ 點解係 30fps？點解唔係 24、32 或 60fps？
你可能會問：點解偏偏係 30fps？其他幀率有咩問題？讓我哋逐個分析。

❌ 點解唔係 24fps？

24fps 係電影標準幀率，但對於 AI 生成影片嚟講有幾個問題：

Soap Opera Effect 風險：如果原始生成係 15-16fps，插幀到 24fps 嘅倍數關係唔理想（15 → 24 = 1.6x），RIFE 需要做唔均勻嘅插幀，容易產生視覺 artifacts

網絡平台唔友好：YouTube、社交媒體平台嘅主流係 30fps 或 60fps，24fps 會被某啲播放器當成「非標準」處理

唔夠流暢：對於 AI 生成嘅動態內容（特別是快速運動），24fps 會顯得有啲「窒」，唔夠絲般順滑

✅ 點解係 30fps？

30fps 係最佳平衡點：

1. 完美嘅插幀倍數

假設原始生成係 15fps（WanVideo 2.2 常見輸出）：
$15 \text{ fps} \times 2 = 30 \text{ fps} \quad \text{(完美 2x 插幀)}$
RIFE 只需要喺每兩幀之間插入一幀（ $t=0.5$ ），呢個係最簡單、最準確嘅插幀方式，唔會有不均勻分配嘅問題。

2. 行業標準 + 兼容性

NTSC 標準：30fps (準確嚟講係 29.97fps) 係北美、日本、台灣等地嘅電視標準

網絡平台原生支援：YouTube、Vimeo、TikTok、Instagram 都完美支援 30fps

編碼器優化：H.264、H.265、VP9、AV1 等主流編碼器都針對 30fps 優化，編碼效率最高

3. 顯示器完美匹配

大部分顯示器係 60Hz：
$60 \text{ Hz} \div 30 \text{ fps} = 2 \quad \text{(每幀顯示 2 次，完美整除)}$
冇 judder（畫面抖動），播放絲般順滑。

4. 視覺體驗最佳

比 24fps 流暢，但又唔會有 60fps 嘅「過度流暢」感

保留咗適度嘅 motion blur，維持電影感

適合大部分 AI 生成影片嘅內容風格

❌ 點解唔係 32fps？

雖然 32 係 2 嘅次方，睇落「整齊」，但有嚴重問題：

Soap Opera Effect：32fps 處於「唔上唔落」嘅尷尬位置，太流暢但又唔夠 60fps，會令影片失去電影感，睇落好似低成本肥皂劇

非標準幀率：主流平台同編碼器冇針對 32fps 優化，可能導致：

顯示器 judder：

$60 \text{ Hz} \div 32 \text{ fps} = 1.875 \quad \text{(唔整除，產生畫面抖動)}$
❌ 點解唔係 60fps？

60fps 好流暢，但對於 AI 影片生成有幾個實際問題：

1. 運算成本爆炸

假設原始係 15fps，要插到 60fps：
$15 \text{ fps} \times 4 = 60 \text{ fps} \quad \text{(需要 4x 插幀)}$

RIFE 需要生成 3 倍 嘅中間幀（相比 30fps 只需要 1 倍）

處理時間同顯存用量會大幅增加

對於長影片（例如 60 秒），60fps = 3600 幀，運算量難以承受

2. Soap Opera Effect 嚴重

60fps 會令電影級內容完全失去 cinematic look

睇落好似「現場直播」或「遊戲畫面」，而唔係精心製作嘅影片

除非你係特意追求超流暢嘅遊戲風格，否則 60fps 會破壞美感

3. 檔案大小同串流壓力

60fps 影片檔案大小係 30fps 嘅接近 2 倍

串流平台（YouTube 等）會用更高 bitrate，增加上傳同播放負擔

4. AI 生成嘅局限性

WanVideo 2.2 原生輸出通常係 15-16fps，插到 60fps 意味住 75% 嘅幀都係 AI 腦補出嚟

插幀比例越高，RIFE 嘅錯誤累積風險越大，可能出現 artifacts、重影、動作扭曲

總結對比表：

幀率優點缺點適用場景
24fps 電影標準、檔案細唔夠流暢、插幀倍數唔理想追求極致電影感嘅靜態鏡頭
30fps ✅ 完美插幀倍數、兼容性最佳、流暢度適中無明顯缺點 大部分 AI 影片生成（推薦）
32fps 2 嘅次方（數學上整齊） Soap Opera Effect、非標準、judder 唔建議使用
60fps 極致流暢運算成本高、Soap Opera Effect、檔案大遊戲風格、運動影片、技術展示

結論：30fps 係 AI 影片生成嘅黃金標準，平衡咗流暢度、運算成本、兼容性同視覺美感。除非你有特殊需求，否則 30fps 係最穩陣嘅選擇。

幀率	優點	缺點	適用場景
24fps	電影標準、檔案細	唔夠流暢、插幀倍數唔理想	追求極致電影感嘅靜態鏡頭
30fps ✅	完美插幀倍數、兼容性最佳、流暢度適中	無明顯缺點	大部分 AI 影片生成（推薦）
32fps	2 嘅次方（數學上整齊）	Soap Opera Effect、非標準、judder	唔建議使用
60fps	極致流暢	運算成本高、Soap Opera Effect、檔案大	遊戲風格、運動影片、技術展示

常見問題 (FAQ)

Q1: 我可唔可以只用一個專家模型？

可以，但質素會大打折扣。單一模型要同時處理高噪點同低噪點環境，往往會顧此失彼，出現動作僵硬或者細節模糊嘅問題。

Q2: Split Steps 設幾多先啱？

冇標準答案，視乎你想要咩效果：

追求流暢動作：Split 得早啲（例如 1-2），俾多啲步數 HN 專家
追求細節質感：Split 得遲啲（例如 3），俾多啲步數 LN 專家
平衡：Total Steps 嘅中間位（例如 Steps=4 就 Split=2）

Q3: 點解要用 Lightning LoRA？

Q4: 我嘅顯卡唔夠強，點算？

工作流已經有好多優化技術：

fp8 量化：減少記憶體用量
Block Swap：將唔用嘅模型層暫存到 RAM
減少 Steps：用更少步數（但可能影響質素）
如果仲係唔夠，可以考慮用雲端 GPU 服務

總結

核心要點回顧：

MoE 架構：兩個專家模型分別負責結構動作同細節質感
極限優化：fp8 量化 + Block Swap + Lightning LoRA 令消費級顯卡都跑得郁
精確分工：透過 Split Steps 控制兩個專家嘅交棒時機
智能插幀：RIFE 將低幀率影片提升到絲般順滑

何時用 WanVideo 2.2？

✅ 需要電影級質感嘅 AI 影片生成
✅ 追求動態連貫性同細節質量嘅平衡
✅ 有一定 ComfyUI 使用經驗，願意調校複雜工作流
❌ 只係想快速生成簡單影片（可以考慮其他更簡單嘅工具）

TL;DR

Table of Contents

核心哲學：咩係 Mixture-of-Experts 架構

高噪點專家 (HN)：結構與動作大師

低噪點專家 (LN)：細節與質感大師

第一階段：啟動引擎與極限優化

T5 XXL：新一代文字編碼器

VAE：潛空間嘅翻譯官

邊個決定影片質素？模型 vs VAE

量化與交換 (Quantization & Block Swap)

Lightning LoRA 嘅魔法

第二階段：潛空間中嘅接力賽

理解降噪過程：由雜訊到清晰

實際例子：Steps = 4, Split_step = 2

第三階段：從潛影到流暢影片

VAE 解碼：潛空間返回現實

RIFE 智能插幀 (Frame Interpolation)

常見問題 (FAQ)

Q1: 我可唔可以只用一個專家模型？

Q2: Split Steps 設幾多先啱？

Q3: 點解要用 Lightning LoRA？

Q4: 我嘅顯卡唔夠強，點算？

總結

相關資源

TL;DR

Table of Contents

核心哲學：咩係 Mixture-of-Experts 架構

高噪點專家 (HN)：結構與動作大師

低噪點專家 (LN)：細節與質感大師

第一階段：啟動引擎與極限優化

T5 XXL：新一代文字編碼器

VAE：潛空間嘅翻譯官

邊個決定影片質素？模型 vs VAE

量化與交換 (Quantization & Block Swap)

Lightning LoRA 嘅魔法

第二階段：潛空間中嘅接力賽

理解降噪過程：由雜訊到清晰

實際例子：Steps = 4, Split_step = 2

第三階段：從潛影到流暢影片

VAE 解碼：潛空間返回現實

RIFE 智能插幀 (Frame Interpolation)

常見問題 (FAQ)

Q1: 我可唔可以只用一個專家模型？

Q2: Split Steps 設幾多先啱？

Q3: 點解要用 Lightning LoRA？

Q4: 我嘅顯卡唔夠強，點算？

總結

相關資源