WAN 2.6 के सह-लॉन्च पार्टनर के रूप में, Ima Studio में हमने पिछले दो हफ्तों में इसकी मुख्य क्षमताओं का गहन परीक्षण किया है। आज इसका आधिकारिक विमोचन हो रहा है। अपने प्रत्यक्ष परीक्षण और दैनिक उपयोग के आधार पर, हमने WAN 2.6 के लिए यह त्वरित मार्गदर्शिका तैयार की है, जिसमें Ima Studio में निःशुल्क परीक्षण शुरू करने और शीघ्रता से बेहतर परिणाम प्राप्त करने के तरीके शामिल हैं।.

इस गाइड से आपको ये जानकारी मिलेगी:
- एक पूरी 10 से 15 सेकंड की मिनी स्टोरी (सिर्फ एक छोटा क्लिप नहीं) बनाने का सबसे तेज़ तरीका
- कहानी की निरंतरता को खोए बिना मल्टी-शॉट स्टोरीटेलिंग का उपयोग कैसे करें
- किसी पात्र को स्थिर रखने के लिए संदर्भ वीडियो का उपयोग कैसे करें
- व्यावहारिक प्रॉम्प्ट टेम्पलेट जिनका हम वास्तव में परीक्षण में उपयोग करते हैं
1) हमारे परीक्षण के आधार पर WAN 2.6 की सबसे बड़ी खूबी क्या है?
विभिन्न परिदृश्यों में कई परीक्षण करने के बाद, हमने पाया कि WAN 2.6 विशेष रूप से तब मजबूत होता है जब आप इसे एक सिंगल-शॉट क्लिप टूल के बजाय "एक संपूर्ण लघु वीडियो जनरेटर" के रूप में उपयोग करते हैं।.

हमारे परीक्षणों में सबसे महत्वपूर्ण तीन क्षमताएं ये थीं:
कई शॉट्स वाली कहानी जो संपादित प्रतीत होती है
एक निरंतर शॉट बनाने के बजाय, WAN 2.6 एक ऐसा क्रम तैयार कर सकता है जो एक ही वीडियो के भीतर कई कट्स की तरह दिखता है। व्यवहार में, यही "एक सुंदर क्लिप" और "एक लघु कथा" के बीच का अंतर है।“
ऑडियो-फॉरवर्ड जनरेशन (आवाज, संवाद और संतोषजनक ध्वनि प्रभाव)
यदि आप केवल विज़ुअल ही नहीं बल्कि साउंड स्टोरीबोर्डिंग भी करते हैं, तो WAN 2.6 आपको बेहतर परिणाम देता है। हमें सबसे ज़्यादा फ़ायदा इन क्षेत्रों में देखने को मिला:
- संक्षिप्त वॉयसओवर शैली के दृश्य
- दो व्यक्तियों के बीच संवाद के क्षण
- ASMR, ताल के साथ तालमेल बिठाकर खाना पकाना, और समयबद्ध ध्वनि प्रभाव
संदर्भ-आधारित वर्ण (जब संगति मायने रखती है)
जब आपको किसी एक व्यक्ति, पालतू जानवर या किरदार को मुख्य भूमिका में बनाए रखने की आवश्यकता हो, तो हम संदर्भ इनपुट को कार्यप्रणाली के रूप में सुझाते हैं। यही "समान भाव" और "स्पष्ट रूप से एक ही विषय" के बीच का अंतर है।“
2) Ima Studio में निःशुल्क परीक्षण शुरू करें (सबसे तेज़ तरीका)
अगर आप कुछ ही मिनटों में अपना पहला "वाह" वाला परिणाम चाहते हैं, तो ऐसा करें:
- खुला WAN 2.6 में इमा स्टूडियो
- एक मोड चुनें:
- टेक्स्ट को वीडियो में बदलें यदि आप बिल्कुल शुरू से कहानी चाहते हैं
- छवि से वीडियो यदि आपके पास पहले से ही एक मजबूत कीफ़्रेम है
- वीडियो का संदर्भ यदि आपको चरित्र में निरंतरता की आवश्यकता है
- पहले प्रयास के लिए एक सरल लक्ष्य चुनें:
- कुल 12 से 15 सेकंड
- 3 से 5 शॉट, इससे ज्यादा नहीं।
- एक मुख्य विषय, अनेक परस्पर विरोधी विषय नहीं

यदि आपकी पहली पीढ़ी अव्यवस्थित लगती है, तो आमतौर पर यह मॉडल की गलती नहीं होती है। यह प्रॉम्प्ट संरचना की गलती होती है (हम इसे अगले अनुभागों में ठीक कर लेंगे)।.
3) सबसे तेज़ "पहली जीत" वर्कफ़्लो (हम इसका उपयोग आंतरिक परीक्षण में करते हैं)
जब हम किसी नए मॉडल का परीक्षण करते हैं, तो हम जटिल स्क्रिप्ट से शुरुआत नहीं करते। हम एक अनुमानित संरचना से शुरुआत करते हैं।.
हमारा अनुशंसित स्टार्टर फार्मूला
- कुल लंबाई: 12 से 15 सेकंड
- शॉट्स: 3 से 4
- शॉट की गति: 3s + 4s + 4s (+ वैकल्पिक अंत)
- एक ही पहचान का मूल तत्व सभी शॉट्स में दोहराया गया (पोशाक, रंग, विशिष्ट विवरण)
कॉपी के लिए तैयार मल्टी-शॉट टेम्पलेट
वर्टिकल 9:16 सिनेमैटिक वीडियो, कुल 12-15 सेकंड। शॉट 1 (3 सेकंड): मुख्य विषय और सेटिंग स्थापित करें (क्लोज-अप या मीडियम शॉट)। शॉट 2 (4 सेकंड): एक्शन को आगे बढ़ाएं, विषय को वही रखें, एक नया विवरण जोड़ें। शॉट 3 (4 सेकंड): महत्वपूर्ण क्षण को उजागर करें (मैक्रो विवरण, स्लो मोशन, या मुख्य प्रतिक्रिया)। शॉट 4 (3-4 सेकंड): अंतिम हीरो शॉट, साफ अंत, स्पष्ट मूड। शैली: (अल्ट्रा रियलिस्टिक / एनीमे / क्ले / आदि) कैमरा: (क्लोज-अप, हैंडहेल्ड, डॉली इन, स्लो पैन) प्रकाश व्यवस्था: (सॉफ्ट डेलाइट / ड्रामैटिक रिम लाइट / नियॉन नाइट) ऑडियो: (वॉइसओवर / संवाद / संगीत + एसएफएक्स सिंक)
यह कैसे काम करता है: यह मॉडल को "संपादक की तरह सोचने" के लिए मजबूर करता है। आप सिर्फ एक दृश्य का वर्णन नहीं कर रहे हैं। आप एक क्रम का वर्णन कर रहे हैं।.
4) अलग-अलग शॉट्स में किरदारों की एकरूपता कैसे बनाए रखें
मल्टी-शॉट वीडियो जनरेशन को लेकर लोगों की यह सबसे आम शिकायत है, और इसे ठीक करना भी सबसे आसान है।.
इसका समाधान: हर शॉट में आइडेंटिटी एंकर को दोहराएं
अपने किरदार को एक बार परिभाषित करने के बजाय, प्रत्येक शॉट में 2 से 3 मुख्य बिंदुओं को दोहराएं:
- पोशाक या वर्दी
- बालों की शैली या रंग
- एक विशिष्ट वस्तु (चश्मा, स्कार्फ, गिटार, हेलमेट)
- एक स्थिर शैली नियम (सिनेमैटिक यथार्थवाद, एनीमे सेल शेडिंग, आदि)
उदाहरण एंकर दोहराव
मुख्य विषय: एक युवा शेफ, सफेद एप्रन, छोटे काले बाल, मनमोहक मुस्कान। शॉट 1: सफेद एप्रन पहने युवा शेफ... शॉट 2: वही युवा शेफ सफेद एप्रन में... शॉट 3: वही युवा शेफ सफेद एप्रन में...
यह इंसानों को दोहराव वाला लग सकता है, लेकिन यही वह चीज है जो विचलन को कम करती है।.
5) ऑडियो सिंक जो वास्तव में जानबूझकर किया गया प्रतीत होता है
हमारे परीक्षणों में, ध्वनि की गुणवत्ता में सबसे बड़ा सुधार तब देखने को मिला जब ध्वनि को एक समयरेखा की तरह माना गया।.
वॉयसओवर प्रॉम्प्ट पैटर्न
- आवाज को साफ रखें
- बैकग्राउंड म्यूजिक की आवाज़ धीमी रखें।
- स्क्रिप्ट को संक्षिप्त रखें।
एक व्यक्ति स्वाभाविक रूप से होंठ हिलाते हुए कैमरे की ओर देख रहा है। ऑडियो: स्पष्ट मंदारिन वॉइसओवर, धीमी आवाज़ में संगीत, न्यूनतम पृष्ठभूमि शोर।.
दो व्यक्तियों के संवाद का पैटर्न
- वक्ता के व्यवहार को परिभाषित करें
- बातचीत संक्षिप्त रखें
- अलगाव और स्पष्टता की मांग करें
दो पात्र बातचीत करते हैं। पात्र ए: तेज़, आत्मविश्वासपूर्ण स्वर। पात्र बी: धीमा, भ्रमित प्रतिक्रिया। ऑडियो: वक्ताओं के बीच स्पष्ट पृथक्करण, कमरे का स्वाभाविक स्वर, संवाद पर संगीत का कोई प्रभाव नहीं।.
बीट-सिंक्रनाइज़्ड एसएफएक्स पैटर्न
जादुई शब्द समय के संकेतक हैं:
- “निराशाजनक स्थिति में”
- “किक ड्रम पर”
- “ठीक गिरने के समय”
- “हर हिट को सिंक करें”
चाकू की हर "ठक" की आवाज़ किक ड्रम की ताल पर बिल्कुल सटीक बैठती है। पैन की "छनछनाहट" सिंथेसाइज़र की धुन के ठीक नीचे की ताल पर शुरू होती है।.
6) वीडियो का संदर्भ: हम सर्वोत्तम स्थिरता कैसे प्राप्त करते हैं
यदि आप संदर्भ इनपुट का उपयोग कर रहे हैं, तो व्यावहारिक नियम सरल है:
“character1 / character2” का प्रयोग लगातार करें
अपना प्रॉम्प्ट लिखें चरित्र1, चरित्र2, इत्यादि, और प्रॉम्प्ट के दौरान उन लेबलों को स्थिर रखें।.
एकल संदर्भ
पात्र 1 कैमरे के सामने एक संक्षिप्त स्ट्रीट इंटरव्यू देता है। पात्र 1 के चेहरे और आवाज़ को संदर्भ के अनुरूप रखें। ऑडियो: स्पष्ट आवाज़, सूक्ष्म परिवेश, कोई तेज़ पृष्ठभूमि ध्वनि नहीं।.
दो संदर्भ
पहला पात्र गाता है जबकि दूसरा पात्र उसके बगल में नाचता है। दोनों पात्रों का रूप मूल चित्र के अनुरूप ही रखें।.
उपयोगी जानकारी के साथ संदर्भ क्लिप रिकॉर्ड करें
हमारे परीक्षणों में सबसे अच्छा प्रदर्शन करने वाले परिणाम ये रहे:
- स्पष्ट प्रकाश व्यवस्था, साफ कोण
- चेहरों के लिए क्लोज-अप + हल्का सा घुमाव
- पृष्ठभूमि में कम व्यवधान
- यदि आप आवाज की विशेषताओं को महत्व देते हैं, तो साफ ऑडियो शामिल करें।
7) कॉपी करने के लिए तैयार प्रॉम्प्ट पैक (वे पैक जिनकी हम वास्तव में अनुशंसा करते हैं)
1) बीट-सिंक्ड साउंड इफेक्ट्स के साथ मल्टी-शॉट कुकिंग (15 सेकंड)
9:16 मिनट की वर्टिकल सिनेमैटिक कुकिंग शॉर्ट फिल्म, कुल 15 सेकंड। शॉट 1 (3 सेकंड): रसोई की तेज रोशनी में लकड़ी के बोर्ड पर सब्जियां काटते हुए शेफ का क्लोज-अप शॉट। शॉट 2 (4 सेकंड): हर चाकू की "ठक" की आवाज लाइट हाउस ट्रैक के किक ड्रम के साथ बिल्कुल सटीक बैठती है। शॉट 3 (4 सेकंड): सामग्री गर्म पैन पर गिरती है; सिंथ फ्रेज के डाउनबीट पर "सिसलिंग" शुरू होती है। शॉट 4 (4 सेकंड): पैन में धीमी गति से सामग्री को उछालना, भाप उठना, साफ साउंड डिजाइन, संतोषजनक लय। ऑडियो: संगीत + सिंक्रोनाइज्ड कटिंग और सिसिंग साउंड इफेक्ट्स, साफ मिक्स, कोई कर्कश शोर नहीं।.
2) दो व्यक्तियों के बीच संवाद, सिनेमाई कॉमेडी टाइमिंग
अति यथार्थवादी सिनेमाई दृश्य, नाटकीय पार्श्व प्रकाश व्यवस्था, कुल 12-15 सेकंड। शॉट 1 (4 सेकंड): दो प्राचीन टेराकोटा योद्धा एक धूल भरे गड्ढे में खड़े हैं, शांत तनाव का माहौल। शॉट 2 (5 सेकंड): योद्धा ए आगे झुकता है और बहुत तेज़ी से, आत्मविश्वास से भरे स्वर में, स्पष्ट होंठों की हरकत के साथ बोलता है। शॉट 3 (6 सेकंड): योद्धा बी भ्रमित भाव, चौड़ी आँखों और हल्के से सिर झुकाए प्रतिक्रिया करता है, हास्य का सटीक तालमेल। ऑडियो: स्पष्ट दो-स्पीकर संवाद, प्राकृतिक कमरे का स्वर, कोई संगीत नहीं जो आवाज़ों पर हावी हो।.
3) उत्पाद का डेमो जो संपादित प्रतीत होता है
वर्टिकल 9:16 का साफ-सुथरा प्रोडक्ट डेमो, कुल 12 सेकंड। शॉट 1 (3 सेकंड): एक साधारण डेस्क पर रखा प्रोडक्ट, हल्की धूप, क्लोज-अप हीरो फ्रेमिंग। शॉट 2 (5 सेकंड): हाथों से मुख्य विशेषता का प्रदर्शन, स्मूथ कैमरा ज़ूम-इन। शॉट 3 (4 सेकंड): स्क्रीन पर कम टेक्स्ट के साथ फाइनल हीरो शॉट, आधुनिक लुक। ऑडियो: हल्का संगीत, यूआई क्लिक की हल्की आवाज़, कोई वॉइसओवर नहीं।.
4) संदर्भ-आधारित वर्ण (एकल संदर्भ)
रात के समय, पात्र 1 नियॉन लाइट से जगमगाती सड़क पर चलता है, सिनेमाई बोकेह प्रभाव और आत्मविश्वास से भरा चेहरा। पात्र 1 के चेहरे और आवाज़ को संदर्भ के अनुरूप रखें। ऑडियो: शहर की हल्की ध्वनि, कोई तेज़ बैकग्राउंड ध्वनि नहीं।.
8) हम सबसे ज़्यादा क्या ठीक करते हैं
- मल्टी-शॉट अव्यवस्थित लगता है: इसे 3 से 4 शॉट्स तक कम करें, और प्रत्येक शॉट का उद्देश्य स्पष्ट करें।
- चरित्र विचलन: प्रति शॉट एंकर दोहराएं
- संवाद शोरगुल भरा लगता है: साफ आवाज, धीमा संगीत और न्यूनतम परिवेश की मांग करें।
- ध्वनि प्रभाव सिंक्रनाइज़ नहीं हो रहे हैं: समय निर्धारण बिंदु (डाउनबीट, किक, ड्रॉप) निर्दिष्ट करें


