एआई वीडियो इतने खराब क्यों हैं?

पहली बार जब मैंने एआई वीडियो जनरेटर आज़माया, तो मैं पंप.
मैंने कुछ ऐसा टाइप किया जो सिनेमाई लग रहा था - "एक आदमी रात में भविष्य के शहर से गुजर रहा है।"“

कुछ ही मिनटों बाद मुझे मेरी उत्कृष्ट कृति मिल गई।.
सिवाय इसके कि... यह बुखार का सपना जैसा लग रहा था।.
उस आदमी का चेहरा पिघल गया, हर कुछ फ्रेम में उसका शरीर विकृत हो गया, और रोशनी मरते हुए निऑन साइन की तरह टिमटिमाने लगी।.

मेरा पहला विचार? "वाह, AI वीडियो तकनीक अभी भी बेकार है।"“

तभी मेरी नज़र एक Reddit थ्रेड पर पड़ी जिसका शीर्षक था “एआई-जनरेटेड वीडियो आमतौर पर इतने खराब क्यों होते हैं?”
सैकड़ों लोग एक ही बात की शिकायत कर रहे थे।.
लेकिन जैसे-जैसे मैं पढ़ता गया - और लेखों में गहराई से जाने के बाद डिजिटलब्रू, टैगशॉप, और हिग्सफील्ड के सोरा 2 प्रीसेट — मुझे कुछ ऐसा एहसास हुआ जिसने इस पूरे क्षेत्र को देखने के मेरे नजरिए को बदल दिया:

AI वीडियो इसलिए बुरे नहीं हैं क्योंकि AI बेवकूफ़ है। वे इसलिए बुरे हैं क्योंकि हम नहीं जानते कि उससे कैसे बात करें।.

AI आपको समझता नहीं है - यह आपकी भविष्यवाणी करता है

एआई आपके दृष्टिकोण को नहीं देखता; यह अनुमान लगाता है कि आप क्या कहना चाह रहे हैं।.
अधिकांश लोग ऐसे संकेत टाइप करते हैं जो बहुत अस्पष्ट होते हैं।.

“रात में शहर में घूमता एक आदमी।”

यह बात किसी इंसान को तो ठीक लग सकती है, लेकिन एक AI मॉडल के लिए? यह ऐसा है जैसे कह रहे हों, "कुछ शहरी चित्र बनाओ।"“
इसमें कोई दिशा नहीं, कोई स्वर नहीं, कोई गति संकेत नहीं।.

अब यह प्रयास करें:

“"नीयन रोशनी के नीचे चलते हुए एक आदमी का सिनेमाई क्लोज-अप, पीछे से कैमरा ट्रैकिंग, गीले फुटपाथ पर प्रतिबिंब।"”

अचानक, एआई को पता चल जाता है कि कैमरा कहां है, किस प्रकार की रोशनी का उपयोग करना है, गति कितनी तेज है।.
यह कोई संयोग नहीं है - यही तो है टैगशॉप कॉल शीघ्र साक्षरता: एआई को उसी तरह के निर्देश देने की क्षमता जो आप किसी फिल्म क्रू को देते हैं।.

हममें से ज़्यादातर लोगों के पास अभी तक यह हुनर नहीं है। और इसीलिए बहुत सारे AI वीडियो टूटे हुए सपनों जैसे लगते हैं।.

AI वीडियो की गुणवत्ता क्यों कम हो जाती है?

कई सप्ताह तक प्रयोग करने (और चीजों को तोड़ने) के बाद, मुझे पता चला कि ये प्रणालियाँ वास्तव में कैसे काम करती हैं।.
अधिकांश AI वीडियो जनरेटर - जैसे सोरा 2, सीडांस, या विदु — दो प्रमुख घटकों पर निर्मित हैं:

  • प्रसार मॉडल - वे छवि गुणवत्ता और विवरण को संभालते हैं।.
  • ट्रान्सफ़ॉर्मर - वे गति और समय की स्थिरता को संभालते हैं।.

सुनने में तो हाई-टेक लग रहा है, है ना? लेकिन समस्या "बीच में" है।“
एआई वास्तव में ऐसा नहीं करता है समझना गति - यह पिछले फ्रेम के आधार पर अगले फ्रेम की भविष्यवाणी करता है।.
यदि आपका संकेत स्पष्ट स्थानिक या लौकिक संकेत नहीं देता है, तो AI अनुमान लगाना शुरू कर देता है।.
ऐसा तब होता है जब चेहरे विकृत हो जाते हैं, रोशनी टिमटिमाती है, या वस्तुएं इधर-उधर चली जाती हैं।.

जैसा डिजिटलब्रू कहते हैं: एआई अर्थ का सृजन नहीं कर रहा है - यह अंतरालों को भर रहा है।.
हर खराब फ्रेम आपके और मॉडल के बीच गलतफहमी का कारण है।.

बेहतर AI वीडियो के लिए दो रास्ते: प्रॉम्प्ट्स में महारत हासिल करें या प्रीसेट का उपयोग करें

एक बार जब मुझे यह बात समझ में आ गई, तो मुझे आगे बढ़ने के दो संभावित रास्ते दिखाई दिए:

  1. संकेत देने की कला में निपुणता प्राप्त करने के लिए सप्ताह बिताएँ।.
  2. किसी और के पहले से ही सही वाले का उपयोग करें।.

मैंने दूसरा विकल्प चुना.

और सच में? यह इस साल का मेरा सबसे बुद्धिमानी भरा रचनात्मक निर्णय था।.

जैसे प्लेटफॉर्म हिग्सफील्ड दिखाओ कैसे सोरा 2 के वीडियो प्रीसेट सिनेमाई संयोजन, प्रकाश तर्क और कैमरा लय में पहले से ही महारत हासिल है।.

यदि आप शीघ्रता से कार्य करने वाले व्यक्ति नहीं हैं, तो टेम्पलेट्स का उपयोग करें

सच तो यह है: अधिकतर लोग बस कुछ ऐसा बनाना चाहते हैं जो अच्छा दिखे - और वह भी जल्दी।.

इसीलिए मैंने इसकी खोज शुरू की आईएमए स्टूडियो समुदाय.
यह निर्माता-निर्मित से भरा हुआ है वीडियो टेम्पलेट्स, AI वीडियो प्रीसेट, और TikTok-शैली के टेम्पलेट जो पहले ही वायरल हो चुके हैं।.

"हॉट" अनुभाग से मेरी व्यक्तिगत पसंदीदा:

  • 🎬 सिनेमाई यात्रा कहानी - शहर या साहसिक क्लिप के लिए एकदम सही।.
  • 💫 स्वप्निल चित्र - नरम रोशनी में, चित्र-शैली में कहानी सुनाना।.
  • 💃 डांस लूप - परफेक्ट लूपिंग मोशन के साथ TikTok ट्रेंड के लिए डिज़ाइन किया गया।.

इन टेम्पलेट्स को जो बात विशेष बनाती है वह यह है कि वे केवल सुंदर दृश्य नहीं हैं -
वे रहे इंजीनियर एआई के लिए.
प्रत्येक में ट्यून्ड प्रॉम्प्ट, कैमरा लॉजिक और पेसिंग शामिल हैं जो मॉडल को सभी फ्रेम में एकरूप बनाए रखने में मदद करते हैं।.

आप बस अपने विषय को बदल सकते हैं, कुछ विवरण बदल सकते हैं, और बूम - आपको एक साफ, गतिशील वीडियो मिल जाएगा जो वास्तव में जानबूझकर बनाया गया लगता है।.

किसी त्वरित जादू की आवश्यकता नहीं है।.

सोरा 2 + आईएमए टेम्पलेट = आश्चर्यजनक रूप से अच्छे परिणाम

एक रात मैं एक “विज्ञान-फाई स्वप्न-दृश्य” क्लिप बनाना चाहता था।.
पूरा प्रॉम्प्ट लिखने के बजाय, मैं IMA कम्युनिटी में गया और उसे ले लिया। साइंस-फिक्शन सिटी नाइट पूर्व निर्धारित.

मैंने जो किया वह इस प्रकार है:
1️⃣ अपना स्वयं का चरित्र चित्र अपलोड किया।.
2️⃣ प्रॉम्प्ट टैग “लड़की” को “अंतरिक्ष यात्री” में बदल दिया गया।”
3️⃣ सक्षम धीमी गति और एचडीआर बेहतर प्रकाश व्यवस्था के लिए.
4️⃣ चलो सोरा 2 गति अनुक्रम को संभालें.

परिणाम अवास्तविक था - सहज गति, तीक्ष्ण विवरण, उत्तम नीऑन प्रतिबिंब।.
मैंने इसे 4K में निर्यात किया, टिकटॉक पर अपलोड किया, और लोगों ने वास्तव में पूछा कि क्या इसे अनरियल इंजन में फिल्माया गया है।.

तभी मुझे यह बात समझ में आई: एआई कोई सीमा नहीं है - हम स्वयं सीमा हैं।.
आपको इसे चमकाने के लिए बस सही कार्यप्रवाह की आवश्यकता है।.

यह स्मार्ट एआई के बारे में नहीं है, यह स्मार्ट इंसानों के बारे में है

जब भी मैं किसी को यह कहते हुए सुनता हूँ कि "सभी AI वीडियो एक जैसे दिखते हैं," तो मैं सिर हिला देता हूँ - क्योंकि वे करना, जब हर कोई एक ही आलसी संकेत देता है।.
लेकिन जब आप मजबूत प्रीसेट, क्यूरेटेड वीडियो टेम्प्लेट या समुदाय-परीक्षण किए गए टिकटॉक टेम्प्लेट का उपयोग करना शुरू करते हैं, तो अंतर तुरंत दिखाई देता है।.

एआई वीडियो निर्माण का उद्देश्य रचनात्मकता को प्रतिस्थापित करना नहीं है; बल्कि इसका उद्देश्य है तेज यह।.
असली कलात्मकता इस बात में है कि आप मशीन को किस प्रकार निर्देशित करते हैं।.

यदि आप तकनीकी परेशानी से बचना चाहते हैं और सीधे पेशेवर दिखने वाले परिणाम प्राप्त करना चाहते हैं, तो देखें आईएमए स्टूडियो समुदाय.
यहीं पर निर्माता अपने सर्वश्रेष्ठ प्रदर्शन वाले टेम्पलेट्स को साझा करते हैं - ऐसी सामग्री जो पहले से ही समझती है कि एआई कैसे "सोचता है।"“

आपको प्रॉम्प्ट्स में पीएचडी की आवश्यकता नहीं है।.
बिल्कुल सही प्रीसेट - और एनिमेट करने लायक एक विज़न।.

लेखक के बारे में

पोस्ट साझा करें:

AI के साथ सारांशित करें

विषयसूची

जुड़े रहो

अधिक अपडेट

भर्ती प्रक्रिया में मैं वास्तव में एआई का उपयोग कैसे करता हूँ: 7 व्यावहारिक मानव संसाधन कार्यप्रवाह (और बचने योग्य 6 गलतियाँ)

1. “एचआर + एआई” अवधारणा स्तर तक ही क्यों सीमित नहीं रह सकता? पिछले एक वर्ष में, एचआर में एआई के बारे में काफी चर्चा हुई है।

एक क्लिक में macOS स्क्रिप्ट का उपयोग करके MP4 फ़ाइलों को लूपिंग WebP GIF-शैली एनिमेशन में बदलें

क्लाइंट और ऐप डेवलपमेंट के काम के लिए, मुझे अक्सर वीडियो कंटेंट को जल्दी से विज़ुअलाइज़ करने की ज़रूरत पड़ती है: ऐसे मामलों में, मैं MP4 फ़ाइल से कुछ मुख्य फ़्रेम निकाल लेता हूँ।

मैंने AI का उपयोग करके 200 से अधिक लोगों के लिए कंपनी की वर्षगांठ का कार्यक्रम कैसे आयोजित किया: प्रशासनिक कार्यप्रवाह का संपूर्ण विवरण

एक प्रशासक के तौर पर, साल के सबसे बड़े प्रोजेक्ट्स में से एक हमेशा कंपनी की सालगिरह का कार्यक्रम या वार्षिक उत्सव होता है। यह कभी भी सिर्फ "एक बुकिंग करना" जैसा काम नहीं होता।