作為 WAN 2.6 的聯合發布合作夥伴,Ima Studio 在過去兩週對其核心功能進行了嚴格的測試。今天,WAN 2.6 正式發布。基於我們的實際測試和日常使用經驗,我們整理了這份 WAN 2.6 快速指南,內容包括如何在 Ima Studio 中開始免費試用以及如何快速獲得顯著效果。.

您將從本指南中獲得:
- 最快產生完整的 10 到 15 秒迷你故事(而不僅僅是短片)的方法
- 如何在不失去連貫性的前提下運用多鏡頭敘事手法
- 如何使用參考影片來保持角色穩定
- 我們在測試中實際使用的實用提示模板
1)根據我們的測試,WAN 2.6 最擅長的是什麼?
在對各種場景進行了大量測試後,我們發現,如果將 WAN 2.6 視為「完整的短視訊產生器」而不是單次拍攝剪輯工具,它的表現會特別出色。.

以下是我們測試中最重要的三個功能:
多鏡頭敘事手法,但感覺像是經過剪輯的。
WAN 2.6 並非產生一個連續的鏡頭,而是可以產生一個視訊序列,其中穿插著多個剪輯片段。實際上,這就是「一段漂亮的短片」和「一個微型敘事」之間的區別。“
音訊前置生成(語音、對話和令人滿意的音效)
如果你在繪製分鏡時同時考慮聲音(而不僅僅是視覺效果),WAN 2.6 通常會帶來更清晰的效果。我們在以下方面看到了顯著的提升:
- 簡短的旁白式場景
- 雙人對話片段
- ASMR、節拍同步烹飪和「定時」音效
基於引用的字元(當一致性至關重要時)
當您需要同一人、寵物或角色來保持主角形象時,我們建議採用參考資料作為工作流程。這能區分「相似的氛圍」和「一眼就能認出是同一個物件」。“
2) 在 Ima Studio 開始免費試用(最快路徑)
如果你只想在幾分鐘內獲得令人驚豔的效果,請這樣做:
- 打開 WAN 2.6 在 伊瑪工作室
- 選擇一種模式:
- 文字轉視頻 如果你想要一個從零開始的故事
- 圖片轉視頻 如果你已經有了強大的關鍵幀
- 影片參考 如果你需要角色一致性
- 第一次嘗試時,設定一個簡單的目標:
- 總共 12 至 15 秒
- 3到5發,不能超過
- 一個主要主題,而不是多個相互競爭的主題

如果你的第一代作品感覺雜亂無章,通常問題不在於模型本身,而在於提示結構(我們將在下一節中解決這個問題)。.
3) 最快的「首勝」工作流程(我們在內部測試中使用此流程)
當我們測試新模型時,我們不會從複雜的腳本開始,而是從可預測的結構開始。.
我們推薦的起始配方
- 總長度: 12至15秒
- 鏡頭: 3到4
- 鏡頭節奏: 3s + 4s + 4s(+可選結尾)
- 鏡頭中反覆出現一個身份錨點(服裝、顏色、標誌性細節)
可直接用於複製的多鏡頭模板
豎屏9分16秒電影風格視頻,總長12-15秒。鏡頭1(3秒):確立主體和場景(特寫或中景)。鏡頭2(4秒):推進劇情發展,保持主體不變,增加一個新細節。鏡頭3(4秒):精彩瞬間(微距細節、慢動作或關鍵反應)。鏡頭4(3-4秒):最終主角鏡頭,乾淨俐落的結尾,清晰的氛圍。風格:(超寫實/動漫/黏土/等等)攝影機:(特寫、手持、推軌、慢速搖攝)燈光:(柔和日光/戲劇性的輪廓光/霓虹夜景)音訊:(旁白/對話/音樂+音效同步)
為什麼這種方法有效: 它迫使模型「像編輯一樣思考」。你不只是在描述一個場景,你是在描述一個序列。.
4)如何保持角色在多個鏡頭中的一致性
這是人們對多鏡頭影片產生最常見的抱怨,也是最容易解決的問題。.
解決方法:在每一幀畫面中重複身分錨點
不要只定義一次角色,而是在每個鏡頭中重複 2 到 3 個錨點:
- 服裝或製服
- 髮型或髮色
- 標誌性道具(眼鏡、圍巾、吉他、頭盔)
- 穩定的風格規則(電影寫實主義、動畫賽璐珞著色等)
範例錨點重複
主體:一位年輕的廚師,身穿白色圍裙,留著黑色短髮,笑容溫暖。鏡頭1:身穿白色圍裙的年輕廚師…鏡頭2:同一位身穿白色圍裙的年輕廚師…鏡頭3:同一位身穿白色圍裙的年輕廚師….
在人類看來,這似乎很重複,但這正是減少漂移的關鍵。.
5)音畫同步效果恰到好處,讓人感覺是刻意為之
在我們的測試中,將聲音視為時間線,可以最大程度地提高感知品質。.
旁白提示模式
- 保持聲音清晰
- 保持背景音樂音量較低
- 劇本要簡短
畫面中,一個人對著鏡頭說話,嘴唇動作自然。音訊:清晰的國語旁白,音樂音量低,背景噪音極小。.
雙人對話模式
- 定義說話者行為
- 保持隊伍短
- 要求分離和明確
兩個角色對話。角色A語速快、自信。角色B反應遲緩、困惑。音頻:說話者分離清晰,環境音自然,無音樂蓋過對話。.
節拍同步音效模式
關鍵在於設定時間錨點:
- “在低拍上”
- “在大鼓上”
- “正好在滴水點”
- “同步每一次擊打”
每一把刀的「啪嗒」聲都精準地落在大鼓的節拍上。煎鍋的「滋滋」聲也精準地從合成器樂句的重拍開始。.
6)參考影片:我們如何獲得最佳一致性
如果使用參考輸入,實際規則很簡單:
始終使用“字元1 / 字元2”
請使用以下方式寫下您的提示 角色1, 角色2, 等等,並在整個提示過程中保持這些標籤穩定。.
單參考
角色1接受一段簡短的街頭採訪,受訪者為鏡頭。保持角色1的臉部特徵和聲音與參考影像一致。音訊需求:清晰的人聲,輕微的環境音,無吵雜的背景音。.
兩個參考文獻
角色1唱歌,角色2在旁邊跳舞。兩個角色的形像都要與參考圖一致。.
錄製包含可用資訊的參考片段
我們在測試中發現以下方法效果最佳:
- 光線充足,角度清晰
- 特寫鏡頭 + 輕微轉身拍攝臉部
- 背景幹擾減少
- 如果您在意語音特徵,請包含清晰的音訊。
7) 可直接使用的提示包(我們真正推薦的那些)
1)多鏡頭烹飪,搭配節拍同步音效(15秒)
垂直螢幕9分16秒電影式烹飪短片,總長15秒。鏡頭1(3秒):廚師在明亮的廚房燈光下,於木板上切割的特寫。鏡頭2(4秒):每一刀「啪嗒」的聲響都精準地落在燈塔背景音樂的低音鼓點上。鏡頭3(4秒):食材放入熱鍋;「滋滋」聲精準地出現在合成器樂句的重拍上。鏡頭4(4秒):慢動作將食材放入鍋中,蒸氣升騰,音效乾淨俐落,節奏感十足。音訊:音樂+同步的切菜和滋滋聲,混音乾淨,無刺耳噪音。.
2)雙人對話,電影喜劇節奏
超逼真的電影級場景,戲劇性的側光,總長12-15秒。鏡頭1(4秒):兩尊古兵馬俑立於塵土飛揚的坑中,氣氛靜謐而緊張。鏡頭2(5秒):陶俑A俯身向前,語速極快,語氣自信,唇部動作清晰。鏡頭3(6秒):兵馬俑B面露困惑,雙眼圓睜,頭部微微傾斜,喜劇效果十足。音頻:清晰的雙人對話,自然的環境音,無音樂蓋過人聲。.
3)感覺像是剪輯過的產品示範。
豎屏 9 分 16 秒,簡潔的產品展示,總長度 12 秒。鏡頭 1(3 秒):產品置於簡約的桌面上,柔和的自然光,特寫。鏡頭 2(5 秒):示範產品的主要功能,鏡頭平滑推進。鏡頭 3(4 秒):最終特寫鏡頭,螢幕文字極簡,呈現現代美學風格。音訊:輕柔的背景音樂,細微的介面點選音效,無旁白。.
4) 基於參考文獻的字元(單一參考文獻)
角色1在夜色中漫步於霓虹閃爍的街道,畫面採用電影級虛化效果,表情自信。保持角色1的臉部和聲音與參考圖一致。音效:柔和的城市環境音,無吵雜的背景音。.
8)我們最常修復的問題
- 多槍齊射看起來雜亂無章:減少到 3 到 4 槍,並明確每槍的目的。
- 角色漂移:每個鏡頭重複錨點
- 對話聽起來很吵:要求使用清晰的聲音、輕柔的音樂和極簡的環境音。
- 音效不同步:請指定時間錨點(重拍、大鼓、下潛)


