WAN 2.6 クイックスタートガイド

WAN 2.6の共同リリースパートナーとして、Ima Studioは過去2週間にわたり、そのコア機能を徹底的にテストしてきました。そして本日、正式リリースを迎えます。実践的なテストと日々の使用経験に基づき、Ima Studioの無料トライアルの開始方法や、優れた成果を迅速に得る方法などを含む、WAN 2.6のクイックガイドを作成しました。.

このガイドから得られるもの:

  • 10~15秒のミニストーリー(短いクリップではなく)を作成する最も速い方法
  • 一貫性を失わずにマルチショットストーリーテリングを使用する方法
  • キャラクターを安定させるために参考ビデオを使用する方法
  • 実際にテストで使用する実用的なプロンプトテンプレート

1) WAN 2.6 の最も優れた点 (当社のテストによる)

さまざまなシナリオで多数のプロンプトを実行した結果、WAN 2.6 は、単発クリップ ツールではなく、「完全な短編ビデオ ジェネレーター」として扱う場合に特に強力であることがわかりました。.

映画のような雰囲気と動きを備えたオーディオ連動AIビデオシーン

私たちのテストで最も重要だった 3 つの機能は次のとおりです。

編集されたようなマルチショットのストーリーテリング

WAN 2.6は、一つの連続ショットを生成するのではなく、一つの動画の中に複数のカットがあるようなシーケンスを生成できます。実際には、これが「美しいクリップ」と「ミニナラティブ」の違いです。“

オーディオフォワード生成(音声、会話、満足のいくSFX)

映像だけでなくサウンドもストーリーボードに組み込むと、WAN 2.6 はよりクリーンな結果をもたらす傾向があります。特に大きな成果が得られたのは以下の点です。

  • 短いナレーションスタイルのシーン
  • 二人の会話の瞬間
  • ASMR、ビート同期の料理、そして「タイミング」のサウンドエフェクト

参照ベースの文字(一貫性が重要な場合)

同じ人物、ペット、またはキャラクターを主役に据えたい場合は、参照入力によるワークフローをお勧めします。これは、「似たような雰囲気」と「明らかに同じ被写体」の違いです。“


2) Ima Studioで無料トライアルを開始する(最速パス)

数分で最初の「すごい」出力が欲しい場合は、次のようにします。

  1. 開ける WAN 2.6今スタジオ
  2. 1つのモードを選択してください:
    • テキストからビデオへ ゼロから物語を作りたいなら
    • 画像からビデオへ すでに強力なキーフレームがある場合
    • ビデオへの参照 キャラクターの一貫性が必要な場合
  3. 最初の実行では、簡単な目標を選択します。
    • 合計12~15秒
    • 3~5ショット、それ以上は不可
    • 複数の競合する主題ではなく、1つの主題

最初の生成結果が雑然としているように感じても、それは通常、モデルの問題ではなく、プロンプトの構造の問題です(次のセクションで修正します)。.


3) 最速の「ファーストウィン」ワークフロー(社内テストで使用)

新しいモデルをテストする際、複雑なスクリプトから始めるのではなく、予測可能な構造から始めます。.

推奨スターターフォーミュラ

  • 全長: 12~15秒
  • ショット: 3~4
  • ショットペース: 3s + 4s + 4s (+ オプションのエンディング)
  • 1 つのアイデンティティ アンカーがショット全体で繰り返されます (服装、色、定義の詳細)

コピー可能なマルチショットテンプレート

縦9分16秒のシネマティックビデオ、合計12~15秒。ショット1(3秒):主題と設定(クローズアップまたはミディアムショット)を確立。ショット2(4秒):被写体はそのままに、アクションを進め、新たなディテールを1つ追加。ショット3(4秒):ハイライトシーン(マクロディテール、スローモーション、またはキーとなるリアクション)。ショット4(3~4秒):最後のヒーローショット、すっきりとしたエンディング、明確なムード。スタイル:(超リアル/アニメ/クレイ/その他)カメラ:(クローズアップ、手持ち、ドリーイン、スローパン)照明:(ソフトな昼光/ドラマチックなリムライト/ネオンナイト)音声:(ナレーション/セリフ/音楽+SFX同期)

これが機能する理由: モデルに「編集者のように考える」ことを強制します。単にシーンを描写するのではなく、シーケンスを描写するのです。.


4) 複数のショットでキャラクターの一貫性を保つ方法

これは、マルチショットビデオ生成に関して人々が抱く最も一般的な不満であり、最も簡単に修正できるものでもあります。.

解決策:すべてのショットでアイデンティティアンカーを繰り返す

キャラクターを 1 度定義するのではなく、各ショットで 2 ~ 3 個のアンカーを繰り返します。

  • 衣装または制服
  • 髪型や髪の色
  • 特徴的な小道具(メガネ、スカーフ、ギター、ヘルメット)
  • 安定したスタイルのルール(映画のリアリズム、アニメのセルシェーディングなど)

アンカーの繰り返し例

メイン被写体:白いエプロン、黒髪ショート、温かい笑顔の若いシェフ。ショット1:白いエプロンを着た若いシェフ… ショット2:白いエプロンを着た同じ若いシェフ… ショット3:白いエプロンを着た同じ若いシェフ….

人間にとっては繰り返しのように見えますが、これがまさにドリフトを減らすものです。.


5) 実際に意図的であるように感じられるオーディオ同期

私たちのテストでは、サウンドをタイムラインのように扱ったことで、知覚される品質が最も大きく向上しました。.

ナレーションプロンプトパターン

  • 声をきれいに保つ
  • BGMを小さくする
  • 台本を短くする
自然な唇の動きでカメラに向かって話す人物。音声:明瞭な中国語のナレーション、低音量の音楽、最小限のバックグラウンドノイズ。.

二人の対話パターン

  • 話者の行動を定義する
  • 行を短くする
  • 分離と明確さを求める
2人のキャラクターが会話しています。キャラクターA:早口で自信に満ちた口調。キャラクターB:ゆっくりとした、戸惑った反応。音声:各スピーカーの音声が明瞭に分離され、自然な室内音で、会話に邪魔されるような音楽はありません。.

ビート同期SFXパターン

魔法の言葉はタイミング アンカーです。

  • “「ダウンビートで」”
  • “「キックドラムで」”
  • “「まさにドロップ時」”
  • “「すべてのヒットを同期」”
ナイフの「ドン」という音はキックドラムのビートに正確に一致し、パンの「ジュージュー」という音はシンセフレーズのダウンビートに正確に一致して鳴り始める。.

6) ビデオ参照: 最高の一貫性を実現する方法

参照入力を使用する場合、実用的なルールは簡単です。

「キャラクター1 / キャラクター2」を一貫して使用する

プロンプトを次のように記述します キャラクター1, キャラクター2, などを使用し、プロンプト全体を通じてそれらのラベルを一定に保ちます。.

単一の参照

キャラクター1がカメラに向かって短い路上インタビューを行います。キャラクター1の顔と声は、参考資料と一致するようにしてください。音声:クリアな声、控えめな雰囲気、騒がしい背景音は避けてください。.

2つの参考文献

キャラクター1が歌い、キャラクター2がその隣で踊ります。両方のキャラクターの外見は、参考画像と統一してください。.

使用可能な情報を含む参照クリップを記録する

私たちのテストで最も効果的だったもの:

  • 明るい照明、きれいな角度
  • クローズアップ+顔のわずかな回転
  • 背景の邪魔が少ない
  • 声の特徴を気にするなら、きれいな音声を含める

7) コピー準備完了のプロンプトパック(実際にお勧めのもの)

1) ビート同期SFX付きマルチショットクッキング(15秒)

縦9分16秒のシネマティック・クッキング・ショート、合計15秒。ショット1(3秒):明るいキッチンの照明の下、木の板の上で野菜をスライスするシェフのクローズアップ。ショット2(4秒):ナイフの「ドン」という音は、ライトハウスのトラックのキックドラムとぴったり重なる。ショット3(4秒):材料が熱いフライパンに落ち、シンセフレーズのダウンビートに合わせて「ジュージュー」という音が鳴り始める。ショット4(4秒):フライパンに材料を放り込むスローモーション、立ち上る湯気、クリーンなサウンドデザイン、心地よいリズム。音声:音楽+カット音とジュージューという音の同期、クリーンなミックス、耳障りなノイズなし。.

2) 二人の会話、映画的なコメディのタイミング

超リアルな映画のようなシーン、ドラマチックなサイドライティング、合計12~15秒。ショット1(4秒):2体の古代兵馬俑が埃っぽい穴の中に立ち、静かな緊張感が漂っている。ショット2(5秒):兵馬俑Aが身を乗り出し、自信に満ちた口調で早口に話し、唇の動きが明瞭である。ショット3(6秒):兵馬俑Bが困惑した表情で反応し、目を大きく見開き、わずかに首を傾げ、完璧なコメディのタイミングで反応する。音声:2つのスピーカーによる明瞭な会話、自然な室内音、音楽が声をかき消してしまうような音はない。.

3) 編集された感じの製品デモ

縦9:16のクリーンな製品デモ、合計12秒。ショット1(3秒):ミニマルなデスクに置かれた製品、柔らかな日光、クローズアップのヒーローフレーミング。ショット2(5秒):主要機能を示す手、スムーズなカメラプッシュイン。ショット3(4秒):画面上のテキストを最小限に抑えた、モダンな美学に基づいた最後のヒーローショット。音声:軽快な音楽、UIクリック時の控えめな効果音、ナレーションなし。.

4) 参照ベースの文字(単一参照)

キャラクター1がネオンに照らされた夜の街を歩いています。映画のようなボケと自信に満ちた表情が特徴です。キャラクター1の顔と声は、参考画像と一貫性を持たせてください。音声:街の雰囲気を控えめに、背景音は控えめに。.

8) 最も頻繁に修正するもの

  • マルチショットは混乱を招くので、3~4ショットに減らし、各ショットの目的を明確にします。
  • キャラクタードリフト:ショットごとにアンカーを繰り返す
  • 会話が騒々しいと感じる場合:きれいな声、低めの音楽、最小限の雰囲気を求めてください
  • SFX が同期しない: タイミング アンカー (ダウンビート、キック、ドロップ) を指定します

著者について

投稿を共有:

AIで要約する

目次

つながり続ける

さらなるアップデート