WAN 2.6 快速入門指南

利用人工智慧進行總結

作為 WAN 2.6 的聯合發布合作夥伴,Ima Studio 在過去兩週對其核心功能進行了嚴格的測試。今天,WAN 2.6 正式發布。基於我們的實際測試和日常使用經驗,我們整理了這份 WAN 2.6 快速指南,內容包括如何在 Ima Studio 中開始免費試用以及如何快速獲得顯著效果。.

您將從本指南中獲得:

  • 最快產生完整的 10 到 15 秒迷你故事(而不僅僅是短片)的方法
  • 如何在不失去連貫性的前提下運用多鏡頭敘事手法
  • 如何使用參考影片來保持角色穩定
  • 我們在測試中實際使用的實用提示模板

1)根據我們的測試,WAN 2.6 最擅長的是什麼?

在對各種場景進行了大量測試後,我們發現,如果將 WAN 2.6 視為「完整的短視訊產生器」而不是單次拍攝剪輯工具,它的表現會特別出色。.

具有電影氛圍與動態效果的音訊連動AI影片場景

以下是我們測試中最重要的三個功能:

多鏡頭敘事手法,但感覺像是經過剪輯的。

WAN 2.6 並非產生一個連續的鏡頭,而是可以產生一個視訊序列,其中穿插著多個剪輯片段。實際上,這就是「一段漂亮的短片」和「一個微型敘事」之間的區別。“

音訊前置生成(語音、對話和令人滿意的音效)

如果你在繪製分鏡時同時考慮聲音(而不僅僅是視覺效果),WAN 2.6 通常會帶來更清晰的效果。我們在以下方面看到了顯著的提升:

  • 簡短的旁白式場景
  • 雙人對話片段
  • ASMR、節拍同步烹飪和「定時」音效

基於引用的字元(當一致性至關重要時)

當您需要同一人、寵物或角色來保持主角形象時,我們建議採用參考資料作為工作流程。這能區分「相似的氛圍」和「一眼就能認出是同一個物件」。“


2) 在 Ima Studio 開始免費試用(最快路徑)

如果你只想在幾分鐘內獲得令人驚豔的效果,請這樣做:

  1. 打開 WAN 2.6伊瑪工作室
  2. 選擇一種模式:
    • 文字轉視頻 如果你想要一個從零開始的故事
    • 圖片轉視頻 如果你已經有了強大的關鍵幀
    • 影片參考 如果你需要角色一致性
  3. 第一次嘗試時,設定一個簡單的目標:
    • 總共 12 至 15 秒
    • 3到5發,不能超過
    • 一個主要主題,而不是多個相互競爭的主題

如果你的第一代作品感覺雜亂無章,通常問題不在於模型本身,而在於提示結構(我們將在下一節中解決這個問題)。.


3) 最快的「首勝」工作流程(我們在內部測試中使用此流程)

當我們測試新模型時,我們不會從複雜的腳本開始,而是從可預測的結構開始。.

我們推薦的起始配方

  • 總長度: 12至15秒
  • 鏡頭: 3到4
  • 鏡頭節奏: 3s + 4s + 4s(+可選結尾)
  • 鏡頭中反覆出現一個身份錨點(服裝、顏色、標誌性細節)

可直接用於複製的多鏡頭模板

豎屏9分16秒電影風格視頻,總長12-15秒。鏡頭1(3秒):確立主體和場景(特寫或中景)。鏡頭2(4秒):推進劇情發展,保持主體不變,增加一個新細節。鏡頭3(4秒):精彩瞬間(微距細節、慢動作或關鍵反應)。鏡頭4(3-4秒):最終主角鏡頭,乾淨俐落的結尾,清晰的氛圍。風格:(超寫實/動漫/黏土/等等)攝影機:(特寫、手持、推軌、慢速搖攝)燈光:(柔和日光/戲劇性的輪廓光/霓虹夜景)音訊:(旁白/對話/音樂+音效同步)

為什麼這種方法有效: 它迫使模型「像編輯一樣思考」。你不只是在描述一個場景,你是在描述一個序列。.


4)如何保持角色在多個鏡頭中的一致性

這是人們對多鏡頭影片產生最常見的抱怨,也是最容易解決的問題。.

解決方法:在每一幀畫面中重複身分錨點

不要只定義一次角色,而是在每個鏡頭中重複 2 到 3 個錨點:

  • 服裝或製服
  • 髮型或髮色
  • 標誌性道具(眼鏡、圍巾、吉他、頭盔)
  • 穩定的風格規則(電影寫實主義、動畫賽璐珞著色等)

範例錨點重複

主體:一位年輕的廚師,身穿白色圍裙,留著黑色短髮,笑容溫暖。鏡頭1:身穿白色圍裙的年輕廚師…鏡頭2:同一位身穿白色圍裙的年輕廚師…鏡頭3:同一位身穿白色圍裙的年輕廚師….

在人類看來,這似乎很重複,但這正是減少漂移的關鍵。.


5)音畫同步效果恰到好處,讓人感覺是刻意為之

在我們的測試中,將聲音視為時間線,可以最大程度地提高感知品質。.

旁白提示模式

  • 保持聲音清晰
  • 保持背景音樂音量較低
  • 劇本要簡短
畫面中,一個人對著鏡頭說話,嘴唇動作自然。音訊:清晰的國語旁白,音樂音量低,背景噪音極小。.

雙人對話模式

  • 定義說話者行為
  • 保持隊伍短
  • 要求分離和明確
兩個角色對話。角色A語速快、自信。角色B反應遲緩、困惑。音頻:說話者分離清晰,環境音自然,無音樂蓋過對話。.

節拍同步音效模式

關鍵在於設定時間錨點:

  • “在低拍上”
  • “在大鼓上”
  • “正好在滴水點”
  • “同步每一次擊打”
每一把刀的「啪嗒」聲都精準地落在大鼓的節拍上。煎鍋的「滋滋」聲也精準地從合成器樂句的重拍開始。.

6)參考影片:我們如何獲得最佳一致性

如果使用參考輸入,實際規則很簡單:

始終使用“字元1 / 字元2”

請使用以下方式寫下您的提示 角色1, 角色2, 等等,並在整個提示過程中保持這些標籤穩定。.

單參考

角色1接受一段簡短的街頭採訪,受訪者為鏡頭。保持角色1的臉部特徵和聲音與參考影像一致。音訊需求:清晰的人聲,輕微的環境音,無吵雜的背景音。.

兩個參考文獻

角色1唱歌,角色2在旁邊跳舞。兩個角色的形像都要與參考圖一致。.

錄製包含可用資訊的參考片段

我們在測試中發現以下方法效果最佳:

  • 光線充足,角度清晰
  • 特寫鏡頭 + 輕微轉身拍攝臉部
  • 背景幹擾減少
  • 如果您在意語音特徵,請包含清晰的音訊。

7) 可直接使用的提示包(我們真正推薦的那些)

1)多鏡頭烹飪,搭配節拍同步音效(15秒)

垂直螢幕9分16秒電影式烹飪短片,總長15秒。鏡頭1(3秒):廚師在明亮的廚房燈光下,於木板上切割的特寫。鏡頭2(4秒):每一刀「啪嗒」的聲響都精準地落在燈塔背景音樂的低音鼓點上。鏡頭3(4秒):食材放入熱鍋;「滋滋」聲精準地出現在合成器樂句的重拍上。鏡頭4(4秒):慢動作將食材放入鍋中,蒸氣升騰,音效乾淨俐落,節奏感十足。音訊:音樂+同步的切菜和滋滋聲,混音乾淨,無刺耳噪音。.

2)雙人對話,電影喜劇節奏

超逼真的電影級場景,戲劇性的側光,總長12-15秒。鏡頭1(4秒):兩尊古兵馬俑立於塵土飛揚的坑中,氣氛靜謐而緊張。鏡頭2(5秒):陶俑A俯身向前,語速極快,語氣自信,唇部動作清晰。鏡頭3(6秒):兵馬俑B面露困惑,雙眼圓睜,頭部微微傾斜,喜劇效果十足。音頻:清晰的雙人對話,自然的環境音,無音樂蓋過人聲。.

3)感覺像是剪輯過的產品示範。

豎屏 9 分 16 秒,簡潔的產品展示,總長度 12 秒。鏡頭 1(3 秒):產品置於簡約的桌面上,柔和的自然光,特寫。鏡頭 2(5 秒):示範產品的主要功能,鏡頭平滑推進。鏡頭 3(4 秒):最終特寫鏡頭,螢幕文字極簡,呈現現代美學風格。音訊:輕柔的背景音樂,細微的介面點選音效,無旁白。.

4) 基於參考文獻的字元(單一參考文獻)

角色1在夜色中漫步於霓虹閃爍的街道,畫面採用電影級虛化效果,表情自信。保持角色1的臉部和聲音與參考圖一致。音效:柔和的城市環境音,無吵雜的背景音。.

8)我們最常修復的問題

  • 多槍齊射看起來雜亂無章:減少到 3 到 4 槍,並明確每槍的目的。
  • 角色漂移:每個鏡頭重複錨點
  • 對話聽起來很吵:要求使用清晰的聲音、輕柔的音樂和極簡的環境音。
  • 音效不同步:請指定時間錨點(重拍、大鼓、下潛)

作者簡介

分享貼文:

保持聯繫

更多更新

如何利用產品圖片、廣告變體和電商行銷活動工作流程來建立用於產品發布的 AI 廣告

如何為產品發布創建人工智慧廣告

產品發布節奏很快。一旦產品準備就緒,團隊就需要產品說明、付費社群廣告、發布週創意素材、落地頁視覺素材、重新導向廣告變體,以及足夠的…