WAN 2.6 빠른 시작 가이드

WAN 2.6의 공동 출시 파트너로서, Ima Studio는 지난 2주 동안 핵심 기능을 집중적으로 테스트했습니다. 오늘 공식 출시가 이루어졌습니다. 저희의 직접적인 테스트와 일상적인 사용을 바탕으로, Ima Studio에서 WAN 2.6 무료 체험을 시작하는 방법과 빠르게 좋은 결과를 얻는 방법을 포함한 간편 가이드를 작성했습니다.

이 가이드를 통해 얻을 수 있는 것:

  • (짧은 클립이 아닌) 10~15초 분량의 완전한 미니 스토리를 가장 빠르게 제작하는 방법
  • 일관성을 잃지 않고 멀티샷 스토리텔링을 활용하는 방법
  • 참고 영상을 활용하여 캐릭터의 자세를 안정적으로 유지하는 방법
  • 실제로 테스트에 사용하는 실용적인 프롬프트 템플릿

1) WAN 2.6의 가장 큰 장점은 무엇인가요? (테스트 결과 기준)

다양한 시나리오에서 여러 차례 테스트를 진행한 결과, WAN 2.6은 단일 장면 클립 도구보다는 "완벽한 단편 비디오 생성기"로 활용할 때 특히 뛰어난 성능을 발휘한다는 것을 발견했습니다.

영화 같은 분위기와 움직임을 담은 오디오 연동 AI 비디오 장면

다음은 저희 테스트에서 가장 중요하게 작용한 세 가지 기능입니다.

여러 장면을 촬영했지만 편집된 느낌이 드는 스토리텔링

WAN 2.6은 하나의 연속된 장면을 생성하는 대신, 하나의 비디오 안에 여러 컷이 있는 것처럼 보이는 시퀀스를 생성할 수 있습니다. 실제로 이는 "보기 좋은 클립"과 "미니 스토리"의 차이를 만들어냅니다.“

음성 중심 제작(음성, 대화 및 만족스러운 효과음)

영상뿐 아니라 사운드까지 스토리보드로 구성하면 WAN 2.6은 더욱 깔끔한 결과를 제공합니다. 특히 다음과 같은 부분에서 가장 큰 효과를 확인했습니다.

  • 짧은 내레이션 스타일 장면
  • 두 사람이 대화하는 순간들
  • ASMR, 비트에 맞춘 요리, 그리고 "타이밍에 맞춘" 음향 효과

참조 기반 문자(일관성이 중요한 경우)

인물, 반려동물 또는 캐릭터를 주인공으로 유지해야 할 경우, 참고 자료를 활용하는 것이 가장 좋은 방법입니다. 이는 "비슷한 분위기"와 "확실히 같은 인물"의 차이를 만들어냅니다.“


2) Ima Studio 무료 체험을 시작하세요 (가장 빠른 방법)

단 몇 분 만에 감탄할 만한 첫 번째 결과물을 얻고 싶다면 이렇게 하세요.

  1. 열려 있는 WAN 2.6 ~에 Ima Studio
  2. 모드를 하나 선택하세요:
    • 텍스트를 동영상으로 만약 처음부터 이야기를 만들고 싶다면
    • 이미지에서 동영상으로 이미 강력한 키프레임을 가지고 있다면
    • 영상 참조 캐릭터 일관성이 필요하다면
  3. 첫 실행을 위한 간단한 목표를 정하세요:
    • 총 12~15초
    • 3~5발, 그 이상은 안 됩니다.
    • 여러 개의 경쟁적인 과목이 아니라, 하나의 주요 과목이 중요합니다.

첫 번째 세대가 어수선하게 느껴진다면, 대개 모델 자체의 문제가 아니라 프롬프트 구조의 문제입니다(다음 섹션에서 수정하겠습니다).


3) 가장 빠른 "첫 성공" 워크플로 (내부 테스트에서 사용 중)

새로운 모델을 테스트할 때 복잡한 스크립트부터 시작하지 않습니다. 예측 가능한 구조부터 시작합니다.

저희가 추천하는 스타터 포뮬러입니다.

  • 총 길이: 12~15초
  • 샷: 3~4
  • 촬영 속도: 3초 + 4초 + 4초 (+ 선택적 엔딩)
  • 장면 전체에 걸쳐 하나의 정체성 기준점(의상, 색상, 특징적인 디테일)이 반복적으로 나타납니다.

복사 준비 완료된 멀티샷 템플릿

세로형 9:16 시네마틱 비디오, 총 12~15초. 샷 1 (3초): 주요 피사체와 배경 설정 (클로즈업 또는 미디엄 샷). 샷 2 (4초): 액션 진행, 동일한 피사체 유지, 새로운 디테일 추가. 샷 3 (4초): 하이라이트 장면 (매크로 디테일, 슬로우 모션 또는 주요 반응). 샷 4 (3~4초): 마지막 하이라이트 장면, 깔끔한 마무리, 명확한 분위기. 스타일: (극사실적 / 애니메이션 / 클레이 / 등) 카메라: (클로즈업, 핸드헬드, 돌리 인, 슬로우 패닝) 조명: (은은한 자연광 / 드라마틱한 림 라이트 / 네온 나이트) 오디오: (내레이션 / 대화 / 음악 + 효과음 싱크)

이것이 효과적인 이유: 이는 모델이 "편집자처럼 생각하도록" 만듭니다. 단순히 장면을 묘사하는 것이 아니라, 전체 시퀀스를 묘사하는 것입니다.


4) 여러 장면에서 캐릭터의 일관성을 유지하는 방법

이는 멀티샷 비디오 제작에 대한 가장 흔한 불만 사항이며, 동시에 가장 쉽게 해결할 수 있는 문제이기도 합니다.

해결책: 모든 장면에서 정체성을 나타내는 핵심 요소를 반복한다.

캐릭터를 한 번만 정의하는 대신, 각 장면마다 2~3개의 기준점을 반복적으로 사용하세요.

  • 복장 또는 유니폼
  • 헤어스타일 또는 색깔
  • 대표적인 소품 (안경, 스카프, 기타, 헬멧)
  • 안정적인 스타일 규칙 (영화적 사실주의, 애니메이션 셀 셰이딩 등)

예시 앵커 반복

주요 피사체: 젊은 요리사, 흰 앞치마, 짧은 검은 머리, 따뜻한 미소. 장면 1: 흰 앞치마를 두른 젊은 요리사... 장면 2: 같은 요리사가 흰 앞치마를 두른 모습... 장면 3: 같은 요리사가 흰 앞치마를 두른 모습...

사람 눈에는 반복적으로 보일 수 있지만, 바로 그 점이 드리프트를 줄여주는 역할을 합니다.


5) 의도적으로 느껴지는 오디오 싱크

저희 테스트 결과, 체감 음질이 가장 크게 향상된 것은 소리를 시간의 흐름처럼 처리했을 때였습니다.

음성 해설 프롬프트 패턴

  • 목소리를 깨끗하게 유지하세요
  • 배경 음악 소리를 작게 유지하세요
  • 대본을 짧게 유지하세요
한 사람이 자연스러운 입 모양으로 카메라를 향해 말합니다. 오디오: 깨끗한 중국어 내레이션, 낮은 볼륨의 음악, 최소한의 배경 소음.

2인 대화 패턴

  • 화자의 행동을 정의합니다
  • 줄을 짧게 유지하세요
  • 분리와 명확성을 요구합니다
두 인물이 대화합니다. A 인물: 빠르고 자신감 있는 어조. B 인물: 느리고 당황한 반응. 오디오: 화자 간 분리가 명확하고, 자연스러운 실내음, 음악이 대화를 압도하지 않음.

비트 싱크 SFX 패턴

핵심 단어는 타이밍 앵커입니다.

  • “하강 박자에”
  • “킥 드럼 위에서”
  • “"정확히 떨어지는 순간"”
  • “"모든 타격을 동기화하세요"”
칼이 부딪히는 "쿵" 소리는 모두 킥 드럼 비트에 정확히 맞춰 나고, 프라이팬이 "지글지글" 소리를 내는 것은 신디사이저 프레이즈의 첫 박자에 정확히 맞춰 시작한다.

6) 영상 참조: 최상의 일관성을 얻는 방법

참조 입력을 사용하는 경우 실질적인 규칙은 간단합니다.

“character1 / character2”를 일관되게 사용하세요.

프롬프트를 작성하려면 다음을 사용하세요. 캐릭터1, 캐릭터2, 등등, 그리고 프롬프트 전체에 걸쳐 해당 레이블을 안정적으로 유지하십시오.

단일 참조

캐릭터1이 카메라를 향해 짧은 거리 인터뷰를 합니다. 캐릭터1의 얼굴과 목소리는 참고 영상과 동일하게 유지하세요. 오디오: 깨끗한 목소리, 은은한 주변 소음, 시끄러운 배경 소음 없음.

두 개의 참고 자료

캐릭터1이 노래를 부르는 동안 캐릭터2는 그 옆에서 춤을 춥니다. 두 캐릭터 모두 참고 이미지와 동일한 외모를 유지하세요.

유용한 정보가 담긴 참고 영상을 녹화하세요.

테스트에서 가장 효과적이었던 방법은 다음과 같습니다.

  • 선명한 조명, 깔끔한 앵글
  • 얼굴을 클로즈업하고 살짝 돌리는 동작
  • 배경 소음 감소
  • 음성 특성을 중요하게 생각한다면 깨끗한 오디오를 포함하세요.

7) 원고 작성에 필요한 프롬프트 팩 (저희가 실제로 추천하는 것들)

1) 음악 비트에 맞춰 효과음을 삽입한 멀티샷 요리 영상 (15초)

세로형 9:16 시네마틱 요리 영상, 총 15초. 1화 (3초): 밝은 주방 조명 아래 나무 도마 위에서 야채를 써는 셰프의 클로즈업. 2화 (4초): 칼이 부딪히는 "툭" 소리가 Lighthouse 음악의 킥 드럼 박자에 정확히 맞춰 들린다. 3화 (4초): 재료가 뜨거운 팬에 닿는다. "지글지글" 소리가 신디사이저 프레이즈의 다운비트에 정확히 맞춰 시작된다. 4화 (4초): 팬 안에서 재료를 천천히 뒤집는 장면, 김이 모락모락 피어오른다. 깔끔한 사운드 디자인과 만족스러운 리듬. 오디오: 음악 + 동기화된 커팅 및 지글지글 소리 효과음, 깔끔한 믹싱, 거친 소음 없음.

2) 2인 대화, 영화적 코미디 타이밍

극도로 사실적인 영화적 장면, 극적인 측면 조명, 총 12~15초. 샷 1 (4초): 두 명의 고대 테라코타 병사가 먼지 쌓인 구덩이에 서 있다. 고요한 긴장감이 감돈다. 샷 2 (5초): 병사 A가 몸을 앞으로 기울이며 매우 빠른 속도로 말한다. 자신감 넘치는 어조, 또렷한 입 모양. 샷 3 (6초): 병사 B는 당황한 표정으로 반응한다. 눈을 크게 뜨고 고개를 살짝 기울이며, 완벽한 코믹 타이밍을 보여준다. 오디오: 두 화자의 대화가 선명하게 들리고, 자연스러운 공간감이 있으며, 음악이 목소리를 압도하지 않는다.

3) 편집된 듯한 제품 데모

세로형 9:16 비율의 깔끔한 제품 데모 영상, 총 12초. 샷 1 (3초): 미니멀한 책상 위에 놓인 제품, 은은한 자연광, 클로즈업으로 촬영. 샷 2 (5초): 손으로 주요 기능을 시연, 부드러운 카메라 줌인. 샷 3 (4초): 화면에 최소한의 텍스트만 표시되는 마지막 샷, 모던한 디자인. 오디오: 잔잔한 배경 음악, 은은한 UI 클릭 효과음, 내레이션 없음.

4) 참조 기반 문자(단일 참조)

캐릭터1이 네온사인으로 환하게 빛나는 밤거리를 걷는 장면입니다. 영화 같은 보케 효과와 자신감 넘치는 표정이 돋보입니다. 캐릭터1의 얼굴과 목소리는 참고 영상과 동일하게 유지해주세요. 배경음악은 은은한 도시 분위기를 담고, 시끄러운 배경은 없애주세요.

8) 우리가 가장 자주 고치는 것

  • 멀티샷은 혼란스러워 보입니다. 샷 수를 3~4개로 줄이고 각 샷의 목적을 명확히 하세요.
  • 캐릭터 드리프트: 샷당 앵커 반복
  • 대화가 시끄럽게 들립니다. 깨끗한 목소리, 잔잔한 음악, 최소한의 배경음악을 요청하세요.
  • 효과음이 동기화되지 않는 경우: 타이밍 기준점(다운비트, 킥, 드롭)을 지정하십시오.

저자 소개

게시물 공유:

AI로 요약하기

목차

연결 상태 유지

더 많은 업데이트