Visemvariabiliteit: Gebarsten tanden & gedempte spraak

In dit artikel worden de fijne kneepjes van audio-naar-gezicht technologie, visemen en spraakarticulatie onderzocht - geschreven vanuit het perspectief van een expert op het gebied van gezichtsbewegingen die werkt aan AI-technologieën voor lipsynchronisatie.

Van audio naar gezicht: De strijd is echt

Geen enkele mondvorm bepaalt een bepaalde spraakklank. Onze articulatie verandert met elk foneem, elke lettergreep en elk woord dat we uitspreken. Hoewel we proberen studies naar lipsynchronisatie te vereenvoudigen door canonieke vormen toe te wijzen (of visemes) voor groepen fonemen bestaat de "juiste" vorm in absolute zin niet. De "juiste" vorm is altijd relatief en hangt sterk af van een groot aantal variabele omstandigheden buiten de eenvoudige ^{OPMERKING 1} probleem van coarticulatie. Voor mensen die werken aan gezichtsanimatie of aan audio-naar-gezicht technologieën is deze realiteit een van de grootste uitdagingen bij het creëren van accurate en natuurlijk ogende spraak.

^{OPMERKING 1: Hoewel coarticulatie niet per se eenvoudig is, begint het eenvoudig te voelen als je eenmaal bent blootgesteld aan de realiteit van andere complexe en onvoorspelbare omstandigheden die articulatie beïnvloeden.}

Gemma's tandenknarsende aflevering in S02E07

Een perfecte illustratie van het viseme-probleem is te zien in Severance Seizoen 2, aflevering 7, wanneer het personage Gemma aan haar antagonist vraagt:

“Kun je alsjeblieft gewoon praten als een normaal mens?”

In Amerikaans Engels kan deze regel fonetisch worden getranscribeerd als:
Kən ju pliz ʤʌst tɔk laɪk ə ˈ nɔrməl ˈpɜrsən?

De acteur die Gemma speelt, Dichen Lachman, spreekt haar tekst uit met op elkaar geklemde tanden en een uiterst gedempte articulatie. (Om haar meer geanimeerde basisstem te horen, luister naar haar toespraak vóór de 47e seconde.) We voelen haar pijn, woede en frustratie, die worden tegengehouden door haar op elkaar geklemde kaken en minimaal bewegende lippen. Een prachtige prestatie voor kijkers, maar een verontrustend voorbeeld uit de praktijk voor onderzoekers op het gebied van audio-naar-gezicht.

Van emoties tot volume en snelheid, de factoren die van invloed zijn op de vorm van de mond in spraak zijn schijnbaar oneindig. Hoewel Gemma's tandenknarsen en gedempte lippen geen invloed hebben op de auditieve leesbaarheid van haar voordracht, zou een liplezer moeite hebben om haar woorden te decoderen. Haar manier van articuleren verandert het verwachte uiterlijk van veel klinkers en medeklinkers.

Fonemen & Visemen: Een kijkje dichterbij

Hierboven zie je een gestabiliseerd fragment van Gemma's toespraak met de nadruk op haar meest contrasterende lipvormen ^{OPMERKING 2}. Merk op hoe veel van deze vormen, ondanks dat ze het meest contrastrijk zijn, niet te onderscheiden zijn en niet voldoen aan de verwachte kenmerken van de bijbehorende visemen.

^{OPMERKING 2: Niet alle fonemen in Gemma's spraak zijn hier opgenomen. Veel fonemen zijn weggelaten omdat ze visueel niet te onderscheiden waren van de omringende geluiden.}

Hieronder zie je dezelfde reeks fonemen uit de bovenstaande clip en hun visuele tegenhangers als stilstaande beelden. Beweeg de muis over elke foto om de grafeemcontext voor elk viseme te bekijken.

/p/'s /b/'s & /m/'s als ankerpunten

Bij het beoordelen van zowel de clip als de foto's van Lachmans optreden is het duidelijk dat de beproefde en echte bilabialen met gesloten lippen - /p/, /b/ en /m/ - nog steeds sluiten zoals het hoort. Je ziet ook een lichte toename in liphoekbreedte voor /i/ en een prijzenswaardige bijna gesloten afronding voor /u/.

Over het algemeen zijn de verwachte visusvormen van fonemen versus de werkelijke vormen die ze aannemen extreem variabel, maar sommige foneemgroepen zijn lastiger dan andere en vereisen een meer rigide opstelling van articulatorposities. Als je je bezighoudt met gezichtsanimatie of audio-naar-gezicht onderzoek, ben je waarschijnlijk al bekend met de stevigheid van /p/, /b/, en /m/. /p/, /b/ en /m/ worden meestal in dezelfde visemencategorie ondergebracht: een gesloten lipvorm. /p/, /b/ en /m/ zijn geweldige ankerpunten bij het beoordelen van de kwaliteit en nauwkeurigheid van gesimuleerde spraak. We houden van ze omdat ze altijd sluiten, toch? ...Toch?

/p/'s /b/'s & /m/'s: De harde waarheid

Helaas, hoewel bilabialen met gesloten lippen geweldige ankerpunten kunnen zijn, zijn zelfs de meest robuuste fonemen niet immuun voor variatie. Trek een Mr. Beast (of moet ik zeggen, Nr. Veast) open en zie hoe je wereld afbrokkelt als de lippen van de Veast niet sluiten voor een groot deel van de /p/'s, /b/'s en /m/'s. Ɱr. Veast is een fervent labiodentalisator. (Lees meer over labiodentalisatie hier en hier).

Je zou geneigd kunnen zijn om te argumenteren dat als de lippen niet sluiten, de klank niet telt als een /p/, /b/, of /m/; de niet volledig gesloten lip situatie ontdoet p's, b's, of m's echter niet van hun fonemische status, en het weerhoudt ons er niet van om ze waar te nemen als p's, b's, of m's. In feite zijn deze niet volledig gesloten versies gewoon gebruikelijk. In feite zijn deze niet volledig gesloten versies gewoon gemeengoed allofonen van /p/, /b/ en /m/.

Lees de volgende uitsplitsing van Wikipedia:

“...[ɱ] is wereldwijd fonetisch heel gebruikelijk, omdat het de universele allofoon is van /m/ en een heel gebruikelijke allofoon van /n/ voor de labiodentale fricatieven [f] en [v], zoals bijvoorbeeld in het Engelse comfort en circumvent, en, voor veel mensen, infinitief en invent.“

“De klank [p̪͡f] komt af en toe voor in het Engels, in woorden waar de ene lettergreep eindigt op 'p' en de volgende begint met 'f', zoals in 'helpful' of 'stepfather'.“

Fase 5: Acceptatie

Hoewel de meest betrouwbare visies niet zo betrouwbaar zijn als algemeen wordt aangenomen, is niet alle hoop verloren. Als je eenmaal leert om de FACS, ik bedoel - feiten, onder ogen te zien en de chaos van menselijk gedrag en mechanicaHet ontcijferen van onze wolkachtige complexiteit kan opwindend zijn. Laten we afsluiten met een aangrijpend fragment van een neurowetenschapper, primatoloog en gegradueerd docent, Robert Sapolsky:

Meer bronnen voor lipsynchronisatie

Voor meer rigide en klokachtige voorbeelden van visemen, bekijk mijn:

Voor wie op zoek is naar meer cloud-achtige benaderingen, mijn Alles over lipsynchronisatie De cursus gaat dieper in op de chaos van articulatie vanuit anatomisch, taalkundig en animatiegericht perspectief, en behandelt:

Variabiliteit in menselijke spraak (buiten de IPA-tabellen)
Taalkundige grondslagen
De anatomie van de articulatie (kaak, lippen, tong, tanden)
Coarticulatie en randgevallen
Waarom “canonieke” visemen niet werken
Hoe modulaire spraaksystemen ontwerpen
Taal versus emotie (hoe ze elkaar kunnen belemmeren of harmoniseren)
Visemes, FACS en flexibele blendshape-formules