Variabiliti Viseme: Gigi Berkerikil & Ucapan Teredam

urutan wanita (Gemma dari Severance) yang menggerakkan bibirnya membentuk fonem dan bentuk bibir yang dibuatnya
urutan wanita (Gemma dari Severance) yang menggerakkan bibirnya membentuk fonem dan bentuk bibir yang dibuatnya

Pos ini meneroka kerumitan teknologi audio-ke-wajah, visem, dan artikulasi pertuturan – ditulis dari perspektif seorang pakar gerakan wajah yang bekerja pada teknologi penyelarasan bibir AI.

Dari Audio ke Wajah: Perjuangannya Memang Sebenar

Tiada satu bentuk mulut pun yang mentakrifkan bunyi pertuturan tertentu. Artikulasi kita berubah dengan setiap fonem, suku kata, dan perkataan yang kita ucapkan. Walaupun kita cuba mempermudah kajian selaras bibir dengan menetapkan bentuk kanonik (atau visem) kepada kumpulan fonem, dalam erti mutlak, bentuk “betul” tidak wujud. Bentuk “betul” sentiasa bersifat relatif dan banyak bergantung pada pelbagai keadaan berubah-ubah di luar yang mudah CATATAN 1 Masalah koartikulasi. Bagi mereka yang bekerja dalam animasi wajah atau teknologi audio-ke-wajah, realiti ini merupakan salah satu cabaran terbesar dalam mencipta ucapan yang tepat dan kelihatan semula jadi.

CATATAN 1Walaupun koartikulasi tidak semestinya mudah, ia mula terasa mudah setelah anda terdedah kepada realiti keadaan kompleks dan tidak dapat diramalkan lain yang mempengaruhi artikulasi.

Penghantaran Gemma dengan gigi bergerutu dalam S02E07

Ilustrasi sempurna tentang masalah visem dapat diperhatikan dalam Pecatan Musim 2, Episod 7, apabila watak yang dikenali sebagai Gemma bertanya kepada antagonisnya:

“Bolehkah anda tolong bercakap seperti orang biasa?”

Dalam Bahasa Inggeris Amerika, baris ini boleh ditranskripsikan secara fonetik sebagai:
Bolehkah anda tolong bercakap seperti orang biasa?

Pelakon yang memegang watak Gemma, Dichen Lachman, menyampaikan barisannya melalui gigi yang diketatkan dengan gaya artikulasi yang sangat teredam. (Untuk melihat nada asasnya yang lebih beranimasi, rujuk ucapan beliau sebelum tanda 47 saat.) Kami merasakan kesakitan, kemarahan, dan kekecewaannya yang terbendung oleh rahang yang diketatkan dan bibir yang hampir tidak bergerak. Persembahan yang indah untuk penonton – tetapi contoh dunia sebenar yang membimbangkan bagi penyelidik audio-ke-wajah.

Dari emosi hingga kelantangan dan kelajuan, faktor-faktor yang mempengaruhi bentuk mulut dalam pertuturan nampaknya tiada berkesudahan. Walaupun gigi Gemma yang diketap dan bibirnya yang senyap tidak menjejaskan kebolehbacaan auditori ucapannya, pembaca bibir akan sukar mentafsir kata-katanya. Gaya artikulasinya mengubah teruk rupa banyak vokal dan konsonan yang dijangkakan.

Fonem & Visem: Tinjauan Lebih Dekat

Di atas adalah klip yang telah distabilkan bagi ucapan Gemma yang menonjolkan bentuk bibirnya yang paling berbeza. Nota 2. Perhatikan bagaimana, walaupun ia yang paling kontras, banyak bentuk ini tidak dapat dibezakan dan gagal memenuhi ciri-ciri yang dijangkakan bagi visem yang bersangkutan.  

Nota 2: Tidak semua fonem dalam ucapan Gemma direkodkan di sini. Banyak yang terlepas kerana ia tidak dapat dibezakan secara visual daripada bunyi sekeliling.

Di bawah menunjukkan set fonem yang sama daripada klip di atas dan rupa visualnya sebagai imej pegun. Letakkan penunjuk tetikus di atas setiap foto untuk melihat konteks grafemik bagi setiap visem.

/p/, /b/ dan /m/ sebagai titik sauh

Apabila menilai kedua-dua rakaman video dan imej pegun daripada persembahan Lachman, jelas bahawa bilabial bibir tertutup yang terbukti – /p/, /b/, dan /m/ – masih menutup seperti sepatutnya. Anda juga dapat melihat sedikit peningkatan dalam lebar sudut bibir untuk /i/ serta pelengkungan hampir tertutup yang patut dipuji untuk /u/.

Secara amnya, walaupun bentuk visem yang dijangka bagi fonem berbanding bentuk sebenar yang terbentuk adalah sangat berubah-ubah, sesetengah kumpulan fonem lebih cerewet berbanding yang lain dan menuntut susunan posisi artikulator yang lebih kaku. Jika anda terlibat dalam animasi wajah atau penyelidikan audio-ke-wajah, anda mungkin sudah biasa dengan keteguhan /p/, /b/, dan /m/. /p/, /b/, dan /m/ biasanya dikelompokkan ke dalam kategori visem yang sama: bentuk bibir tertutup. /p/, /b/, dan /m/ adalah titik rujukan yang baik apabila menilai kualiti dan ketepatan ucapan simulasi. Kita suka mereka kerana mereka sentiasa menutup, kan? …Betul?

/p/'s /b/'s & /m/'s: Kebenaran yang Sukar

Malangnya, walaupun bilabial bibir tertutup boleh menjadi titik sauh yang hebat, malah fonem paling kukuh pun tidak kebal terhadap variasi. Buka Mr. Beast (atau patutkah saya katakan, Nr. Veast) dan saksikan dunia anda hancur apabila bibir Veast gagal menutup untuk sebahagian besar bunyi /p/, /b/ dan /m/. Ɱr. Veast adalah seorang labiodentalisasi yang bersemangat. (Baca lebih lanjut tentang labiodentalisasi di sini dan di sini).

Anda mungkin tergoda untuk berhujah bahawa jika bibir tidak menutup sepenuhnya, bunyi itu tidak dikira sebagai /p/, /b/, atau /m/; bagaimanapun, keadaan bibir yang tidak sepenuhnya tertutup tidak menghilangkan status fonem p, b, atau m, dan ia tidak menghalang kita daripada menganggapnya sebagai p, b, atau m. Malahan, versi-versi yang tidak ditutup sepenuhnya ini hanyalah perkara biasa. alofon daripada /p/, /b/, dan /m/.

Baca pecahan berikut daripada Wikipedia:

…[ɱ] amat biasa di seluruh dunia secara fonetik, kerana ia merupakan alofon sejagat bagi /m/ dan alofon yang sangat biasa bagi /n/ sebelum frikatif labiodental [f] dan [v], seperti dalam contoh Inggeris comfort dan circumvent, dan bagi ramai orang, infinitive dan invent.

Bunyi [p̪͡f] kadang-kadang terdapat dalam bahasa Inggeris, dalam perkataan di mana satu suku kata berakhir dengan ‘p’ dan suku kata seterusnya bermula dengan ‘f’, seperti dalam ‘helpful’ atau ‘stepfather’.

Tahap 5: Penerimaan

Walaupun visem yang paling boleh dipercayai tidaklah seboleh dipercayai seperti yang dipercayai secara meluas, semua harapan belum hilang. Setelah anda belajar untuk menghadapi FACS, maksud saya – fakta, dan merangkul kekacauan tingkah laku manusia dan mekanik, mentafsir kerumitan kita yang bagaikan awan boleh menjadi menarik. Mari kita akhiri dengan petikan yang menyentuh daripada ahli saraf, ahli primatologi, dan pensyarah yang diganggu oleh kambing, Robert Sapolsky:

Lebih banyak sumber lip sync

Untuk contoh visem yang lebih kaku dan seperti jam, lihat:

Bagi mereka yang mencari pendekatan yang lebih menyerupai awan, saya Semua Tentang Lipsync Kursus ini menyelami dengan lebih mendalam kekacauan artikulasi dari sudut anatomi, linguistik, dan mesra animasi, merangkumi:
  • Variasi pertuturan manusia (melebihi carta IPA)
  • Asas linguistik
  • Anatomi artikulasi (rahang, bibir, lidah, gigi)
  • Koartikulasi dan kes sempadan
  • Mengapa visem “kanonik” tidak berfungsi
  • Bagaimana untuk mereka bentuk sistem pertuturan modular
  • Perkataan vs. emosi (bagaimana ia boleh menghalang atau menyerasikan)
  • Visemes, FACS, dan formula blendshape fleksibel

Direka untuk studio dan pasukan

Mari kita bercakap.

facetheFACS@melindaozel.com