Det här inlägget utforskar svårigheterna med ljud-till-ansikte-teknik, visemes och talartikulation - skrivet ur perspektivet för en expert på ansiktsrörelser som arbetar med AI-teknik för läppsynkronisering.
Från ljud till ansikte: Kampen är verklig
Ingen enskild munform definierar ett visst talat ljud. Vår artikulation förändras med varje fonem, stavelse och ord vi uttalar. Även om vi försöker förenkla studier av läppsynkronisering genom att tilldela kanoniska former (eller Se) till grupper av fonem, i absolut mening finns inte den "rätta" formen. Den "rätta" formen är alltid relativ och beror i hög grad på en mängd varierande förhållanden utöver den enkla NOT 1 problem med koartikulation. För dem som arbetar med ansiktsanimering eller med ljud-till-ansikt-teknik är detta en av de största utmaningarna när det gäller att skapa korrekt och naturligt tal.
NOT 1: Även om koartikulation inte nödvändigtvis är enkelt, börjar det kännas enkelt när du har blivit utsatt för verkligheten av andra komplexa och oförutsägbara förhållanden som påverkar artikulationen.
Gemmas tandgnisslande leverans i S02E07
En perfekt illustration av viseme-problemet kan observeras i Avgångsvederlag Säsong 2, avsnitt 7, när karaktären som kallas Gemma frågar sin antagonist:
“Kan du snälla prata som en normal person?”
På amerikansk engelska kan denna rad fonetiskt transkriberas som:
Kən ju pliz ʤʌst tɔk laɪk ə ˈ nɔrməl ˈpɜrsən?
Skådespelaren som spelar Gemma, Dichen Lachman, levererar sin replik med sammanbitna tänder och en extremt dämpad artikulation. (För att se hennes mer livliga baslinje, se hennes tal före 47 sekunder.) Vi känner hennes smärta, ilska och frustration som hålls tillbaka av hennes sammanbitna käkar och minimalt rörliga läppar. En vacker prestation för tittarna – men ett oroande exempel från verkligheten för forskare inom ljud-till-ansikte-teknik.
De faktorer som påverkar munformerna i tal är till synes oändliga, från känslor till volym och hastighet. Även om Gemmas sammanbitna tänder och dämpade läppar inte påverkar den auditiva läsbarheten i hennes framförande, skulle en läppavläsare ha svårt att avkoda hennes ord. Hennes artikulationsstil förändrar allvarligt det förväntade utseendet hos många vokaler och konsonanter.
Fonem och visem: En närmare titt
Ovan visas ett stabiliserat klipp av Gemmas tal där hennes mest kontrasterande läppformar framhävs NOT 2. Observera hur många av dessa former, trots att de är de mest kontrasterande, är omöjliga att urskilja och inte uppfyller de förväntade egenskaperna hos deras tillhörande visem.
NOT 2: Alla fonem i Gemmas tal har inte fångats upp här. Många utelämnades eftersom de var visuellt omöjliga att skilja från omgivande ljud.
Nedan visas samma uppsättning fonem från klippet ovan och deras visuella motsvarigheter i form av stillbilder. Håll muspekaren över varje foto för att se det grafemiska sammanhanget för varje visem.
/p/'s /b/'s & /m/'s som ankarpunkter
När man bedömer både klippet och stillbilderna från Lachmans framträdande är det uppenbart att de beprövade bilabialerna med sluten läpp - /p/, /b/ och /m/ - fortfarande stängs som de ska. Man kan också se en liten ökning av läpphörnens bredd för /i/ samt en berömvärd nästan sluten rundning för /u/.
I allmänhet är fonemens förväntade visemformer jämfört med de faktiska former de antar extremt varierande, men vissa fonemgrupper är mer krävande än andra och kräver en mer rigid placering av artikulatorpositionerna. Om du arbetar med ansiktsanimering eller forskning om ljud-till-ansikte är du sannolikt redan bekant med hur robusta /p/, /b/ och /m/ är. /p/, /b/ och /m/ brukar grupperas i samma visemkategori: en sluten läppform. /p/, /b/ och /m/ är utmärkta ankarpunkter när man bedömer kvaliteten och noggrannheten i simulerat tal. Vi älskar dem eftersom de alltid stängs, eller hur? ...eller hur?
/p/:s /b/:s & /m/:s: Den hårda sanningen
Även om bilabialer med slutna läppar kan vara bra ankarpunkter är tyvärr inte ens de mest robusta fonemen immuna mot variation. Öppna en Mr Beast (eller ska jag säga Nr Veast) och se hur din värld rasar samman när Veasts läppar inte stängs för en stor del av /p/, /b/ och /m/. Ɱr. Veast är en ivrig labiodentalizer. (Läs mer om labiodentalisering här och här).
Man kan frestas att hävda att om läpparna inte sluter sig räknas inte ljudet som ett /p/, /b/ eller /m/; men situationen med inte helt slutna läppar fråntar inte p:n, b:n eller m:n deras fonemiska status, och det hindrar oss inte från att uppfatta dem som p:n, b:n eller m:n. Faktum är att dessa inte helt slutna versioner bara är vanliga allofoner av /p/, /b/ och /m/.
Läs följande sammanfattning från Wikipedia:
Steg 5: Acceptans
Även om de mest tillförlitliga visemes inte är så tillförlitliga som man allmänt tror, är allt hopp inte ute. När du väl har lärt dig att möta FACS, jag menar - fakta, och omfamna kaos av mänskligt beteende och mekanikDet kan vara spännande att dechiffrera våra molnliknande komplexiteter. Låt oss avsluta med ett gripande utdrag från en neurovetenskapsman, primatolog och föreläsare, Robert Sapolsky:
Fler resurser för läppsynkronisering
För mer tydliga och klockliknande exempel på visemer, kolla in min:
- Variationer i mänskligt tal (utöver IPA-tabellerna)
- Språkliga grunder
- Artikulationens anatomi (käke, läppar, tunga, tänder)
- Koartikulation och gränsfall
- Varför “kanoniska” visemer inte fungerar
- Hur man utformar modulära talsystem
- Tal kontra känslor (hur de kan hindra eller harmonisera)
- Visemes, FACS och flexibla blendshape-formler