Como socio de co-lanzamiento de WAN 2.6, en Ima Studio hemos dedicado las últimas dos semanas a probar rigurosamente sus principales funciones. Hoy se celebra el lanzamiento oficial. Basándonos en nuestras pruebas prácticas y en el uso diario, hemos elaborado esta guía rápida de WAN 2.6, que incluye cómo iniciar una prueba gratuita en Ima Studio y cómo obtener resultados excelentes rápidamente.

Lo que obtendrás de esta guía:
- La forma más rápida de generar una minihistoria completa de 10 a 15 segundos (no solo un clip corto)
- Cómo utilizar la narración multitoma sin perder coherencia
- Cómo usar un vídeo de referencia para mantener estable a un personaje
- Plantillas de indicaciones prácticas que realmente utilizamos en las pruebas
1) En qué es mejor WAN 2.6 (según nuestras pruebas)
Después de ejecutar muchas pruebas en distintos escenarios, descubrimos que WAN 2.6 es especialmente potente cuando se lo trata como un "generador de videos cortos completo" en lugar de una herramienta de clips de una sola toma.

Estas son las tres capacidades que más importaron en nuestras pruebas:
Una narración de múltiples tomas que parece editada
En lugar de generar una toma continua, WAN 2.6 puede producir una secuencia que se lee como múltiples cortes dentro de un mismo video. En la práctica, esta es la diferencia entre un clip bonito y una mininarrativa.“
Generación de audio de avance (voz, diálogo y efectos de sonido satisfactorios)
Si creas un guion gráfico de sonido, no solo de elementos visuales, WAN 2.6 suele ofrecerte resultados más limpios. Observamos los mayores avances en:
- escenas cortas estilo voz en off
- momentos de diálogo entre dos personas
- ASMR, cocina sincronizada y efectos de sonido "cronometrados"
Personajes basados en referencias (cuando la consistencia importa)
Cuando necesitas que la misma persona, mascota o personaje siga siendo el protagonista, recomendamos usar referencias. Es la diferencia entre una atmósfera similar y un sujeto claramente idéntico.“
2) Inicia una prueba gratuita en Ima Studio (ruta más rápida)
Si solo quieres tu primer resultado sorprendente en minutos, haz lo siguiente:
- Abierto WAN 2.6 en Estudio Ima
- Elija un modo:
- Texto a vídeo Si quieres una historia desde cero
- De imagen a vídeo Si ya tienes un fotograma clave fuerte
- Referencia al vídeo Si necesitas consistencia de carácter
- Elige un objetivo sencillo para la primera carrera:
- De 12 a 15 segundos en total
- De 3 a 5 disparos, no más
- un tema principal, no varios temas que compiten entre sí

Si tu primera generación parece desordenada, normalmente no se debe al modelo, sino a la estructura de las indicaciones (lo solucionaremos en las siguientes secciones).
3) El flujo de trabajo más rápido de “primera victoria” (lo usamos en pruebas internas)
Cuando probamos un nuevo modelo, no empezamos con scripts complicados. Empezamos con una estructura predecible.
Nuestra fórmula de inicio recomendada
- Longitud total: 12 a 15 segundos
- Disparos: 3 a 4
- Ritmo de disparo: 3s + 4s + 4s (+ final opcional)
- Un ancla de identidad que se repite en todas las tomas (atuendo, color, detalle definitorio)
Plantilla multidisparo lista para copiar
Vídeo cinematográfico vertical de 9:16, 12-15 segundos en total. Plano 1 (3 s): Establecer el sujeto principal y el escenario (primer plano o plano medio). Plano 2 (4 s): Progresar la acción, mantener el mismo sujeto, añadir un nuevo detalle. Plano 3 (4 s): Momento destacado (detalle macro, cámara lenta o reacción clave). Plano 4 (3-4 s): Plano final del héroe, final limpio, atmósfera nítida. Estilo: (ultra realista / anime / arcilla / etc.) Cámara: (primer plano, cámara en mano, dolly in, cámara lenta) Iluminación: (luz diurna suave / luz de borde dramática / neón nocturno) Audio: (voz en off / diálogos / música + sincronización de efectos especiales)
Por qué funciona esto: Obliga al modelo a "pensar como un editor". No se trata solo de describir una escena, sino de describir una secuencia.
4) Cómo mantener la coherencia de los personajes en varias tomas
Esta es la queja más común que la gente tiene con la generación de videos de múltiples tomas, y también es la más fácil de solucionar.
La solución: repetir los anclajes de identidad en cada toma
En lugar de definir tu personaje una sola vez, repite de 2 a 3 puntos clave en cada toma:
- atuendo o uniforme
- estilo o color de cabello
- Un accesorio característico (gafas, bufanda, guitarra, casco)
- una regla de estilo estable (realismo cinematográfico, cel shading de anime, etc.)
Ejemplo de repetición de ancla
Tema principal: un joven chef, con delantal blanco, cabello corto y negro, sonrisa cálida. Plano 1: el joven chef con delantal blanco... Plano 2: el mismo joven chef con delantal blanco... Plano 3: el mismo joven chef con delantal blanco...
Puede parecer repetitivo para los humanos, pero es exactamente lo que reduce la deriva.
5) Sincronización de audio que realmente parece intencional
En nuestras pruebas, el mayor salto en la calidad percibida se produjo al tratar el sonido como una línea de tiempo.
Patrón de mensaje de voz en off
- mantener la voz limpia
- Mantenga la música de fondo baja
- Mantenga el guión breve
Una persona habla a la cámara con un movimiento natural de labios. Audio: voz en mandarín limpia, música a bajo volumen y mínimo ruido de fondo.
Patrón de diálogo de dos personas
- definir el comportamiento del hablante
- Mantenga las líneas cortas
- pedir separación y claridad
Dos personajes hablan. Personaje A: tono rápido y seguro. Personaje B: reacción más lenta y confusa. Audio: separación clara entre los hablantes, tono ambiental natural, sin música que opaque el diálogo.
Patrón de efectos de sonido sincronizado con el ritmo
Las palabras mágicas son anclas de tiempo:
- “en el tiempo fuerte”
- “en el bombo”
- “exactamente en el punto de caída”
- “sincroniza cada golpe”
Cada golpe de cuchillo impacta exactamente en el ritmo del bombo. El chisporroteo panorámico comienza justo en el tiempo fuerte de la frase de sintetizador.
6) Referencia al vídeo: cómo conseguimos la mejor consistencia
Si está utilizando una entrada de referencia, la regla práctica es simple:
Utilice “carácter1 / carácter2” de forma coherente
Escribe tu mensaje usando personaje1, personaje2, etc. y mantenga esas etiquetas estables a lo largo del mensaje.
Referencia única
El personaje 1 da una breve entrevista callejera a la cámara. El rostro y la voz del personaje 1 deben ser coherentes con la referencia. Audio: voz limpia, ambiente sutil, sin ruido de fondo.
Dos referencias
El personaje 1 canta mientras el personaje 2 baila a su lado. Mantenga la apariencia de referencia de ambos personajes.
Grabar clips de referencia con información útil
Lo que mejor funcionó en nuestras pruebas:
- iluminación clara, ángulos limpios
- Primer plano + ligeros giros de las caras
- Menos distracciones de fondo
- Si te importan los rasgos de la voz, incluye audio limpio.
7) Paquete de indicaciones listas para copiar (las que realmente recomendamos)
1) Cocina multi-disparo con efectos de sonido sincronizados con el ritmo (15 s)
Cortometraje cinematográfico de cocina vertical de 9:16 segundos, 15 segundos en total. Plano 1 (3 s): Primer plano de un chef cortando verduras en una tabla de madera bajo la intensa luz de la cocina. Plano 2 (4 s): Cada golpe de cuchillo impacta con precisión en el bombo de una pista de música de faro. Plano 3 (4 s): Los ingredientes caen sobre una sartén caliente; el chisporroteo comienza justo en el contratiempo de una frase de sintetizador. Plano 4 (4 s): La sartén se vierte a cámara lenta, sale vapor, diseño de sonido limpio, ritmo satisfactorio. Audio: música + corte sincronizado y efectos especiales chisporroteantes, mezcla limpia, sin ruidos molestos.
2) Diálogo entre dos personas, ritmo de comedia cinematográfica.
Escena cinematográfica ultrarrealista, iluminación lateral dramática, duración total de 12 a 15 segundos. Plano 1 (4 s): Dos antiguos guerreros de terracota se encuentran en un pozo polvoriento, en un ambiente de tensión silenciosa. Plano 2 (5 s): El guerrero A se inclina y habla muy rápido, con tono seguro y un movimiento de labios claro. Plano 3 (6 s): El guerrero B reacciona con expresión confusa, ojos abiertos de par en par, ligeramente inclinada la cabeza, con una sincronización cómica perfecta. Audio: diálogos claros de dos interlocutores, tono ambiental natural, sin música que opaque las voces.
3) Demostración del producto que parece editada
Demostración de producto en formato vertical 9:16, 12 segundos en total. Toma 1 (3 s): Producto sobre un escritorio minimalista, luz natural suave, primer plano del protagonista. Toma 2 (5 s): Manos que muestran la función clave, introducción suave de la cámara. Toma 3 (4 s): Toma final del protagonista con texto mínimo en pantalla y estética moderna. Audio: música de fondo ligera, efectos especiales sutiles de clic en la interfaz de usuario, sin voz en off.
4) Carácter basado en referencias (referencia única)
El personaje 1 camina por una calle iluminada con neón de noche, con un efecto bokeh cinematográfico y una expresión segura. El rostro y la voz del personaje 1 deben ser coherentes con la referencia. Audio: ambiente urbano sutil, sin ruido de fondo.
8) lo que arreglamos con más frecuencia
- El disparo múltiple se ve caótico: redúzcalo a 3 o 4 disparos y haga obvio el propósito de cada uno.
- Deriva del personaje: repetir anclas por toma
- El diálogo se siente ruidoso: pide voz limpia, música suave y ambiente mínimo.
- SFX no sincroniza: especifique los puntos de anclaje de tiempo (tiempo fuerte, bombo, caída)


