تستكشف هذه التدوينة تعقيدات تقنية تحويل الصوت إلى وجه، والرؤية، ونطق الكلام - مكتوبة من وجهة نظر خبير في حركات الوجه يعمل على تقنيات مزامنة الشفاه بالذكاء الاصطناعي.
من الصوت إلى الوجه: الصراع حقيقي
لا يوجد شكل فم واحد يحدد صوت نطق معين. تتغير طريقة نطقنا مع كل صوت لفظي ومقطع لفظي وكلمة ننطقها. على الرغم من أننا نحاول تبسيط دراسات مزامنة الشفاه عن طريق تعيين أشكال قياسية (أو فيزميس) لمجموعات الفونيمات، بالمعنى المطلق، فإن الشكل "الصحيح" غير موجود. فالشكل "الصحيح" دائمًا ما يكون نسبيًا ويعتمد بشكل كبير على عدد كبير من الشروط المتغيرة التي تتجاوز الملاحظة 1 مشكلة النطق المشترك. بالنسبة لأولئك الذين يعملون في مجال الرسوم المتحركة للوجه أو على تقنيات تحويل الصوت إلى وجه، فإن هذا الواقع هو أحد أكبر التحديات في إنشاء كلام دقيق وطبيعي المظهر.
الملاحظة 1: على الرغم من أن النطق المشترك ليس بالضرورة بسيطًا، إلا أنه يبدأ في الشعور بالبساطة بمجرد أن تتعرض لحقائق الظروف الأخرى المعقدة وغير المتوقعة التي تؤثر على النطق.
توصيل أسنان جيما المشدودة في S02E07
يمكن ملاحظة مثال توضيحي مثالي لمشكلة الرؤية في الفصل الموسم 2، الحلقة 7، عندما تسأل الشخصية المعروفة باسم جيما خصمها
“هل يمكنك التحدث كشخص عادي من فضلك؟”
في اللغة الإنجليزية الأمريكية، يمكن كتابة هذا السطر صوتيًا على النحو التالي:
هل يمكنني أن أشرح لك كيف يمكنني أن أشرح لك كيف يمكنني أن أشرح لك كيف يمكنني أن أشرح لك كيف يمكنني أن أشرح لك؟
الممثل الذي يلعب دور جيما ديشين لاكمان, ، تقول جملتها وهي تضغط على أسنانها بأسلوب نطق خافت للغاية. (لرؤية أسلوبها الأكثر حيوية، انظر خطابها قبل علامة 47 ثانية). نشعر بألمها وغضبها وإحباطها المكبوتين بفعل ضغطها على أسنانها وحركتها الدقيقة لشفتاها. أداء جميل للمشاهدين، لكنه مثال مقلق في العالم الحقيقي للباحثين في مجال الصوت والوجه.
من المشاعر إلى الصوت والسرعة، يبدو أن العوامل التي تؤثر على أشكال الفم في الكلام لا تنتهي أبدًا. على الرغم من أن أسنان جيما المصرة وشفاهها الصامتة لا تؤثر على وضوح إلقائها السمعي، إلا أن قارئ الشفاه سيواجه صعوبة في فك شفرة كلماتها. فأسلوب نطقها يغير بشدة الشكل المتوقع للعديد من حروف العلة والحروف الساكنة.
الفونيمات والفيزيمات: نظرة فاحصة
أعلاه مقطع ثابت من حديث جيما يسلط الضوء على أكثر أشكال شفاهها تباينًا الملاحظة 2. لاحظ كيف أن العديد من هذه الأشكال، على الرغم من كونها الأكثر تباينًا، لا يمكن تمييزها ولا تحقق السمات المتوقعة من الأشكال المرئية المرتبطة بها.
الملاحظة 2: لم يتم التقاط جميع الأصوات في كلام جيما هنا. تم استبعاد العديد منها، لأنه لا يمكن تمييزها بصرياً عن الأصوات المحيطة بها.
يظهر أدناه نفس مجموعة الفونيمات من المقطع أعلاه ونظيراتها المرئية كصور ثابتة. مرر مؤشر الماوس فوق كل صورة لعرض السياق الصوتي لكل فونيم.
/p/'s /b/'s /b/'s و /m/'s كنقاط ارتكاز
عند تقييم كل من المقطع والصور الثابتة من أداء لاكمان، من الواضح أن ثنائيات الشفاه المغلقة المجربة والحقيقية - /p/ و /b/ و /m/ - لا تزال تغلق كما يفترض أن تكون. يمكنك أيضًا أن ترى زيادة طفيفة في عرض زاوية الشفة لـ /i/ بالإضافة إلى التقريب شبه المغلق لـ /u/.
بشكل عام، في حين أن الأشكال الصوتية المتوقعة للفونيمات مقابل الأشكال الفعلية التي تتخذها متغيرة للغاية، فإن بعض المجموعات الصوتية أكثر صلابة من غيرها وتتطلب ترتيبًا أكثر صلابة لمواضع المفصل. إذا كنت تعمل في مجال الرسوم المتحركة الوجهية أو البحث الصوتي، فمن المحتمل أنك على دراية بالفعل بصلابة /p/ و /b/ و /m/. عادةً ما يتم تجميع /p/ و /b/ و /m/ في نفس فئة اللثغة: شكل الشفة المغلقة. /p/، /b/، و /b/، و /m/ هي نقاط ارتكاز رائعة عند تقييم جودة ودقة الكلام المحاكى. نحن نحبها لأنها مغلقة دائمًا، أليس كذلك؟ ...أليس كذلك؟
الحقيقة الصعبة
لسوء الحظ، على الرغم من أن ثنائية الشفاه المغلقة الشفتين يمكن أن تكون نقاط ارتكاز رائعة، إلا أن حتى أكثر الأصوات قوة ليست محصنة ضد الاختلاف. افتح مستر بيست (أو يجب أن أقول، ن. فيست) وشاهد عالمك ينهار عندما تفشل شفاه فيست في إغلاق جزء كبير من /p/'s و /b/'s و /m/'s. Ɱr. فياست هو متعطش للشفوية. (اقرأ المزيد حول الشفوية هنا و هنا).
قد تميل إلى القول بأنه إذا لم تنغلق الشفتان، فإن الصوت لا يعد صوتًا /p/ أو /b/ أو /m/؛ ومع ذلك، فإن حالة عدم انغلاق الشفتين بشكل كامل لا تجرد حروف الباء أو الباء أو الميم من وضعها الصوتي، ولا تمنعنا من إدراكها كحروف الباء أو الباء أو الميم. في الواقع، هذه النسخ غير المغلقة تمامًا هي في الواقع مجرد نسخ شائعة الألوفونات من /p/ و /b/ و /m/.
اقرأ التفصيل التالي من ويكيبيديا:
المرحلة 5: القبول
على الرغم من أن الرؤى الأكثر موثوقية ليست موثوقة كما هو شائع، إلا أن الأمل لم يفقد كل الأمل. فبمجرد أن تتعلم مواجهة الحقائق، أعني - الحقائق، واعتناق فوضى السلوك البشري والميكانيكا، يمكن أن يكون فك رموز تعقيداتنا الشبيهة بالغيوم أمرًا مثيرًا. دعونا نختم بمقتطفات مؤثرة من عالم الأعصاب وعالم الرئيسيات والمحاضر المحاضر, روبرت سابولسكي:
المزيد من موارد مزامنة الشفاه
للحصول على أمثلة أكثر صرامة وشبه الساعة على visemes، راجع:
- تباين الكلام البشري (خارج نطاق جداول IPA)
- الأسس اللغوية
- تشريح أعضاء النطق (الفك والشفتين واللسان والأسنان)
- الترابط الصوتي والحالات الاستثنائية
- لماذا لا تعمل الحروف الصوتية “القياسية”؟
- كيفية تصميم أنظمة الكلام المعيارية
- الكلام مقابل العاطفة (كيف يمكن أن يعوقا أو ينسجما)
- الفيزيمات، FACS، وصيغ مزج الشكل المرنة