यह पोस्ट ऑडियो-टू-फेस तकनीक, विज़ीम्स और भाषण उच्चारण की जटिलताओं का अन्वेषण करती है – एक के दृष्टिकोण से लिखा गया एआई लिप सिंक तकनीकों पर काम करने वाले चेहरे की गति के विशेषज्ञ.
ऑडियो से चेहरे तक: संघर्ष वास्तविक है
कोई एक मुख का आकार किसी विशिष्ट भाषण ध्वनि को परिभाषित नहीं करता। हमारे उच्चारण में हर ध्वनिमुद्र, अक्षर और शब्द के साथ परिवर्तन होता है। हालांकि हम ओठ-समकालिकता अध्ययनों को मानक आकार (या विज़ीमध्वनियों के समूहों के लिए, पूर्ण अर्थ में “सही” आकार का कोई अस्तित्व नहीं है। “सही” आकार हमेशा सापेक्ष होता है और सरल से परे कई परिवर्तनीय परिस्थितियों पर बहुत अधिक निर्भर करता है। नोट 1 सह-संयोजन की समस्या। चेहरे की एनिमेशन या ऑडियो-से-चेहरे तकनीकों पर काम करने वालों के लिए, यह वास्तविकता सटीक और प्राकृतिक दिखने वाली वाणी बनाने में सबसे बड़ी चुनौतियों में से एक है।.
नोट 1यद्यपि सह-उच्चारण अनिवार्य रूप से सरल नहीं होता, एक बार जब आप उच्चारण को प्रभावित करने वाली अन्य जटिल और अप्रत्याशित परिस्थितियों की वास्तविकताओं से परिचित हो जाते हैं, तो यह सरल लगने लगता है।.
सीज़न 02 एपिसोड 07 में जेम्मा की दाँत पीसते हुए डिलीवरी
विज़ीम समस्या का एक उत्तम उदाहरण में देखा जा सकता है। सेवा समाप्ति सीज़न 2, एपिसोड 7, जब जेम्मा नामक पात्र अपने प्रतिद्वंद्वी से पूछती है:
“क्या आप कृपया बस एक सामान्य व्यक्ति की तरह बात कर सकते हैं?”
अमेरिकी अंग्रेज़ी में, इस पंक्ति का ध्वन्यात्मक रूपानुकरण इस प्रकार हो सकता है:
क्या तुम कृपया बस एक सामान्य व्यक्ति की तरह बात कर सकते हो?
जेम्मा की भूमिका निभाने वाले अभिनेता, दिचेन लाचमन, वह दाँत कसकर अपनी पंक्ति बेहद मद्धिम उच्चारण शैली में बोलती है। (उसके अधिक जीवंत मूल स्वरूप को देखने के लिए 47-सेकंड के निशान से पहले का उसका भाषण देखें।) हम उसके दर्द, गुस्से और निराशा को महसूस करते हैं, जो कसे हुए जबड़े और न्यूनतम रूप से हिलते होंठों से दबा हुआ है। दर्शकों के लिए एक खूबसूरत प्रदर्शन – लेकिन ऑडियो-टू-फेस शोधकर्ताओं के लिए एक चिंताजनक वास्तविक दुनिया का उदाहरण।.
भावनाओं से लेकर आवाज़ की मात्रा और गति तक, भाषण में मुँह के आकार को प्रभावित करने वाले कारक अनंत प्रतीत होते हैं। हालांकि जेम्मा के कसे हुए दांत और चुपके होंठ उसकी प्रस्तुति की श्रव्य स्पष्टता को प्रभावित नहीं करते, फिर भी होंठ-पठक के लिए उसके शब्दों को समझना बेहद मुश्किल होगा। उसकी उच्चारण शैली कई स्वरों और व्यंजनों के अपेक्षित रूप को गंभीर रूप से बदल देती है।.
ध्वनियों और दृश्य-ध्वनियों: एक गहन अवलोकन
ऊपर जेम्मा की भाषण की एक स्थिरीकृत क्लिप है, जो उनके सबसे विपरीत होंठ के आकारों को उजागर करती है। नोट 2. देखें कि, सबसे अधिक विरोधाभासी होने के बावजूद, इनमें से कई आकार अस्पष्ट हैं और अपने संबंधित विसेमों की अपेक्षित विशेषताओं को पूरा करने में विफल रहते हैं।.
नोट 2: जेम्मा की वाक् में मौजूद सभी ध्वनियों को यहाँ शामिल नहीं किया गया है। कई ध्वनियाँ छोड़ दी गईं, क्योंकि वे आसपास की ध्वनियों से दृश्य रूप में अलग नहीं की जा सकीं।.
नीचे ऊपर दिए गए क्लिप के समान ध्वनियों का सेट और उनकी दृश्य समकक्ष स्थिर छवियाँ दिखाई गई हैं। प्रत्येक फोटो पर माउस ले जाएँ ताकि प्रत्येक विज़िम का ग्राफ़ेमिक संदर्भ देखा जा सके।.
/p/, /b/ और /m/ को एंकर पॉइंट्स के रूप में
लैचमैन के प्रदर्शन से प्राप्त क्लिप और स्थिर छवियों दोनों का मूल्यांकन करने पर यह स्पष्ट होता है कि परखे-परखे बंद-ओठ द्विओष्ठ्य ध्वनियाँ – /p/, /b/, और /m/ – अभी भी वैसे ही बंद हो रही हैं जैसे उन्हें होना चाहिए। आप /i/ के लिए ओठ के कोनों की चौड़ाई में थोड़ी वृद्धि भी देख सकते हैं, साथ ही /u/ के लिए लगभग बंद गोलान भी प्रशंसनीय है।.
आम तौर पर, जबकि ध्वनियों के अपेक्षित विज़ीम रूप बनाम उनके वास्तविक रूप अत्यधिक परिवर्तनशील होते हैं, कुछ ध्वनि समूह दूसरों की तुलना में अधिक सख्त होते हैं और उच्चारण अंगों की स्थितियों की अधिक कठोर व्यवस्था की मांग करते हैं। यदि आप चेहरे की एनिमेशन या ऑडियो-से-चेहरा अनुसंधान में हैं, तो आप संभवतः पहले से ही /p/, /b/, और /m/ की मजबूती से परिचित होंगे। /p/, /b/, और /m/ को आमतौर पर एक ही वाइज़ीम श्रेणी में रखा जाता है: बंद होंठ का आकार। सिमुलेटेड भाषण की गुणवत्ता और सटीकता का आकलन करते समय /p/, /b/, और /m/ बेहतरीन एंकर पॉइंट होते हैं। हमें वे पसंद हैं क्योंकि वे हमेशा बंद होते हैं, है ना? …है ना?
/p/'s /b/'s और /m/'s: कठोर सत्य
दुर्भाग्यवश, यद्यपि बंद-ओष्ठ द्विओष्ठ ध्वनियाँ उत्कृष्ट आधार बिंदु हो सकती हैं, फिर भी सबसे मजबूत ध्वन्यात्मक इकाइयाँ भी परिवर्तन से अछूती नहीं रहतीं। एक मिस्टर बीस्ट (या कहें, Nr. Veast) खोलें और देखें कि आपकी दुनिया कैसे ढह जाती है जब वीस्ट के होंठ /p/, /b/ और /m/ के अधिकांश हिस्सों में बंद नहीं हो पाते। Ɱr. Veast एक उत्साही लैबियोडेंटलाइज़र है। (लैबियोडेंटलाइज़ेशन के बारे में और पढ़ें) यहाँ और यहाँ).
आप यह तर्क देने के लिए प्रलोभित हो सकते हैं कि यदि होंठ पूरी तरह बंद नहीं होते हैं, तो ध्वनि को /p/, /b/, या /m/ नहीं माना जाना चाहिए; हालाँकि, होंठों का आंशिक रूप से बंद होना p, b, या m को उनके ध्वन्यात्मक दर्जे से वंचित नहीं करता है, और यह हमें उन्हें p, b, या m के रूप में महसूस करने से नहीं रोकता है। वास्तव में, ये आंशिक रूप से बंद संस्करण सामान्य ही हैं। समानध्वनियाँ /p/, /b/, और /m/ के.
विकिपीडिया से निम्नलिखित विवरण पढ़ें:
चरण 5: स्वीकृति
हालाँकि सबसे विश्वसनीय विज़ीम्स उतने विश्वसनीय नहीं हैं जितना व्यापक रूप से माना जाता है, फिर भी सारी उम्मीद खत्म नहीं हुई है। एक बार जब आप FACS का सामना करना सीख जाते हैं, मेरा मतलब है – तथ्यों का, और उन्हें अपना लेते हैं मानवीय व्यवहार और यांत्रिकी का अराजकता, हमारी बादल जैसी जटिलताओं को सुलझाना रोमांचक हो सकता है। आइए तंत्रिका-विज्ञानी, प्राइमेटोलॉजिस्ट, और बकरियों वाले व्याख्याता के एक मार्मिक अंश के साथ इसे समाप्त करें, रॉबर्ट सापोलस्की:
अधिक लिप सिंक संसाधन
विसेमों के अधिक कठोर और घड़ी-जैसे उदाहरणों के लिए, मेरी देखें:
- मानवीय भाषण की परिवर्तनशीलता (आईपीए चार्ट से परे)
- भाषाई आधार
- उच्चारण की संरचना (जबड़ा, होंठ, जीभ, दांत)
- सहसंयोजन और सीमांत मामले
- क्यों “कैनोनिकल” वाइज़ीम काम नहीं करते
- मॉड्यूलर स्पीच सिस्टम कैसे डिज़ाइन करें
- भाषण बनाम भावना (वे कैसे बाधित कर सकती हैं या सामंजस्य स्थापित कर सकती हैं)
- विज़ीम्स, FACS, और लचीले ब्लेंडशेप सूत्र