WAN 2.6 快速入門指南

伊瑪工作室
2025 年 12 月 16 日

利用人工智慧進行總結

作為 WAN 2.6 的聯合發布合作夥伴，Ima Studio 在過去兩週對其核心功能進行了嚴格的測試。今天，WAN 2.6 正式發布。基於我們的實際測試和日常使用經驗，我們整理了這份 WAN 2.6 快速指南，內容包括如何在 Ima Studio 中開始免費試用以及如何快速獲得顯著效果。.

您將從本指南中獲得：

最快產生完整的 10 到 15 秒迷你故事（而不僅僅是短片）的方法
如何在不失去連貫性的前提下運用多鏡頭敘事手法
如何使用參考影片來保持角色穩定
我們在測試中實際使用的實用提示模板

1）根據我們的測試，WAN 2.6 最擅長的是什麼？

在對各種場景進行了大量測試後，我們發現，如果將 WAN 2.6 視為「完整的短視訊產生器」而不是單次拍攝剪輯工具，它的表現會特別出色。.

免費試用 Wan 2.6 影片產生功能

以下是我們測試中最重要的三個功能：

多鏡頭敘事手法，但感覺像是經過剪輯的。

WAN 2.6 並非產生一個連續的鏡頭，而是可以產生一個視訊序列，其中穿插著多個剪輯片段。實際上，這就是「一段漂亮的短片」和「一個微型敘事」之間的區別。“

音訊前置生成（語音、對話和令人滿意的音效）

如果你在繪製分鏡時同時考慮聲音（而不僅僅是視覺效果），WAN 2.6 通常會帶來更清晰的效果。我們在以下方面看到了顯著的提升：

簡短的旁白式場景
雙人對話片段
ASMR、節拍同步烹飪和「定時」音效

基於引用的字元（當一致性至關重要時）

當您需要同一人、寵物或角色來保持主角形象時，我們建議採用參考資料作為工作流程。這能區分「相似的氛圍」和「一眼就能認出是同一個物件」。“

2) 在 Ima Studio 開始免費試用（最快路徑）

如果你只想在幾分鐘內獲得令人驚豔的效果，請這樣做：

打開 WAN 2.6 在伊瑪工作室
選擇一種模式：
- 文字轉視頻 如果你想要一個從零開始的故事
- 圖片轉視頻 如果你已經有了強大的關鍵幀
- 影片參考 如果你需要角色一致性
第一次嘗試時，設定一個簡單的目標：
- 總共 12 至 15 秒
- 3到5發，不能超過
- 一個主要主題，而不是多個相互競爭的主題

開始免費試用 — 試用 WAN 2.6

如果你的第一代作品感覺雜亂無章，通常問題不在於模型本身，而在於提示結構（我們將在下一節中解決這個問題）。.

3) 最快的「首勝」工作流程（我們在內部測試中使用此流程）

當我們測試新模型時，我們不會從複雜的腳本開始，而是從可預測的結構開始。.

我們推薦的起始配方

總長度： 12至15秒
鏡頭： 3到4
鏡頭節奏： 3s + 4s + 4s（+可選結尾）
鏡頭中反覆出現一個身份錨點（服裝、顏色、標誌性細節）

可直接用於複製的多鏡頭模板

豎屏9分16秒電影風格視頻，總長12-15秒。鏡頭1（3秒）：確立主體和場景（特寫或中景）。鏡頭2（4秒）：推進劇情發展，保持主體不變，增加一個新細節。鏡頭3（4秒）：精彩瞬間（微距細節、慢動作或關鍵反應）。鏡頭4（3-4秒）：最終主角鏡頭，乾淨俐落的結尾，清晰的氛圍。風格：（超寫實/動漫/黏土/等等）攝影機：（特寫、手持、推軌、慢速搖攝）燈光：（柔和日光/戲劇性的輪廓光/霓虹夜景）音訊：（旁白/對話/音樂+音效同步）

為什麼這種方法有效： 它迫使模型「像編輯一樣思考」。你不只是在描述一個場景，你是在描述一個序列。.

4）如何保持角色在多個鏡頭中的一致性

這是人們對多鏡頭影片產生最常見的抱怨，也是最容易解決的問題。.

解決方法：在每一幀畫面中重複身分錨點

不要只定義一次角色，而是在每個鏡頭中重複 2 到 3 個錨點：

服裝或製服
髮型或髮色
標誌性道具（眼鏡、圍巾、吉他、頭盔）
穩定的風格規則（電影寫實主義、動畫賽璐珞著色等）

範例錨點重複

主體：一位年輕的廚師，身穿白色圍裙，留著黑色短髮，笑容溫暖。鏡頭1：身穿白色圍裙的年輕廚師…鏡頭2：同一位身穿白色圍裙的年輕廚師…鏡頭3：同一位身穿白色圍裙的年輕廚師….

在人類看來，這似乎很重複，但這正是減少漂移的關鍵。.

5）音畫同步效果恰到好處，讓人感覺是刻意為之

在我們的測試中，將聲音視為時間線，可以最大程度地提高感知品質。.

旁白提示模式

保持聲音清晰
保持背景音樂音量較低
劇本要簡短

畫面中，一個人對著鏡頭說話，嘴唇動作自然。音訊：清晰的國語旁白，音樂音量低，背景噪音極小。.

雙人對話模式

定義說話者行為
保持隊伍短
要求分離和明確

兩個角色對話。角色A語速快、自信。角色B反應遲緩、困惑。音頻：說話者分離清晰，環境音自然，無音樂蓋過對話。.

節拍同步音效模式

關鍵在於設定時間錨點：

“在低拍上”
“在大鼓上”
“正好在滴水點”
“同步每一次擊打”

每一把刀的「啪嗒」聲都精準地落在大鼓的節拍上。煎鍋的「滋滋」聲也精準地從合成器樂句的重拍開始。.

6）參考影片：我們如何獲得最佳一致性

如果使用參考輸入，實際規則很簡單：

始終使用“字元1 / 字元2”

請使用以下方式寫下您的提示 角色1, 角色2, 等等，並在整個提示過程中保持這些標籤穩定。.

單參考

角色1接受一段簡短的街頭採訪，受訪者為鏡頭。保持角色1的臉部特徵和聲音與參考影像一致。音訊需求：清晰的人聲，輕微的環境音，無吵雜的背景音。.

兩個參考文獻

角色1唱歌，角色2在旁邊跳舞。兩個角色的形像都要與參考圖一致。.

錄製包含可用資訊的參考片段

我們在測試中發現以下方法效果最佳：

光線充足，角度清晰
特寫鏡頭 + 輕微轉身拍攝臉部
背景幹擾減少
如果您在意語音特徵，請包含清晰的音訊。

7) 可直接使用的提示包（我們真正推薦的那些）

1）多鏡頭烹飪，搭配節拍同步音效（15秒）

垂直螢幕9分16秒電影式烹飪短片，總長15秒。鏡頭1（3秒）：廚師在明亮的廚房燈光下，於木板上切割的特寫。鏡頭2（4秒）：每一刀「啪嗒」的聲響都精準地落在燈塔背景音樂的低音鼓點上。鏡頭3（4秒）：食材放入熱鍋；「滋滋」聲精準地出現在合成器樂句的重拍上。鏡頭4（4秒）：慢動作將食材放入鍋中，蒸氣升騰，音效乾淨俐落，節奏感十足。音訊：音樂+同步的切菜和滋滋聲，混音乾淨，無刺耳噪音。.

2）雙人對話，電影喜劇節奏

超逼真的電影級場景，戲劇性的側光，總長12-15秒。鏡頭1（4秒）：兩尊古兵馬俑立於塵土飛揚的坑中，氣氛靜謐而緊張。鏡頭2（5秒）：陶俑A俯身向前，語速極快，語氣自信，唇部動作清晰。鏡頭3（6秒）：兵馬俑B面露困惑，雙眼圓睜，頭部微微傾斜，喜劇效果十足。音頻：清晰的雙人對話，自然的環境音，無音樂蓋過人聲。.

3）感覺像是剪輯過的產品示範。

豎屏 9 分 16 秒，簡潔的產品展示，總長度 12 秒。鏡頭 1（3 秒）：產品置於簡約的桌面上，柔和的自然光，特寫。鏡頭 2（5 秒）：示範產品的主要功能，鏡頭平滑推進。鏡頭 3（4 秒）：最終特寫鏡頭，螢幕文字極簡，呈現現代美學風格。音訊：輕柔的背景音樂，細微的介面點選音效，無旁白。.

4) 基於參考文獻的字元（單一參考文獻）

角色1在夜色中漫步於霓虹閃爍的街道，畫面採用電影級虛化效果，表情自信。保持角色1的臉部和聲音與參考圖一致。音效：柔和的城市環境音，無吵雜的背景音。.

8）我們最常修復的問題

多槍齊射看起來雜亂無章：減少到 3 到 4 槍，並明確每槍的目的。
角色漂移：每個鏡頭重複錨點
對話聽起來很吵：要求使用清晰的聲音、輕柔的音樂和極簡的環境音。
音效不同步：請指定時間錨點（重拍、大鼓、下潛）

作者簡介

伊瑪工作室

Ima Studio官方團隊致力於報導人工智慧創作的未來，內容涵蓋產品創新、研究突破以及社群動態。請關注，我們將深入探討人工智慧代理和多模型平台如何塑造創意世界。.

看作者的帖子