Tento příspěvek se zabývá složitostmi technologie audio-to-face, vizemi a artikulací řeči - je napsán z pohledu odborník na pohyby obličeje pracující na technologiích synchronizace rtů pomocí umělé inteligence.
Od zvuku k tváři: Boj je skutečný
Žádný tvar úst sám o sobě nedefinuje konkrétní zvuk řeči. Naše artikulace se mění s každým fonémem, slabikou a slovem, které vyslovíme. Ačkoli se snažíme zjednodušit studie synchronizace rtů přiřazením kanonických tvarů (nebo visemes) na skupiny fonémů, v absolutním smyslu "správný" tvar neexistuje. "Správný" tvar je vždy relativní a do značné míry závisí na řadě proměnných podmínek, které přesahují jednoduchý tvar. POZNÁMKA 1 problém koartikulace. Pro ty, kdo pracují na animaci obličeje nebo na technologiích převodu zvuku na obličej, je tato skutečnost jednou z největších výzev při vytváření přesné a přirozeně vypadající řeči.
POZNÁMKA 1: Ačkoli koartikulace není nutně jednoduchá, začne se zdát jednoduchá, jakmile se seznámíte s realitou dalších složitých a nepředvídatelných podmínek, které ovlivňují artikulaci.
Gemmino doručení se zaťatými zuby v S02E07
Dokonalou ilustraci problému visemu lze pozorovat na příkladu Odstupné 2. série, 7. díl, kdy se postava známá jako Gemma ptá svého protivníka:
“Mohl bys prosím mluvit jako normální člověk?”
V americké angličtině lze tuto větu foneticky přepsat takto:
Kən ju pliz ʤʌst tɔk laɪk ə ˈ nɔrməl ˈpɜrsən?
Herec, který hraje Gemmu, Dichen Lachman, pronáší svou repliku se zaťatými zuby a extrémně tlumeným způsobem artikulace. (Její živější projev můžete vidět v projevu před 47. sekundou.) Cítíme její bolest, hněv a frustraci, které potlačuje zaťatými čelistmi a minimálně pohyblivými rty. Pro diváky je to krásný výkon, ale pro výzkumníky zabývající se vztahem mezi zvukem a výrazem obličeje je to znepokojivý příklad z reálného života.
Faktory ovlivňující tvar úst v řeči jsou zdánlivě nekonečné - od emocí po hlasitost a rychlost. Přestože Gemminy zatnuté zuby a ztlumené rty nemají vliv na sluchovou čitelnost jejího projevu, čtenář ze rtů by její slova jen těžko dekódoval. Její artikulační styl výrazně mění očekávanou podobu mnoha samohlásek a souhlásek.
Fonémy a vidy: Bližší pohled
Nahoře je stabilizovaný klip Gemminy řeči, který zdůrazňuje její nejkontrastnější tvary rtů. POZNÁMKA 2. Všimněte si, jak jsou mnohé z těchto tvarů, přestože jsou nejkontrastnější, nerozeznatelné a nesplňují očekávané vlastnosti přidružených vidů.
POZNÁMKA 2: Ne všechny fonémy v Gemmině řeči jsou zde zachyceny. Mnohé z nich byly vynechány, protože byly vizuálně nerozlišitelné od okolních zvuků.
Níže je zobrazen stejný soubor fonémů z výše uvedeného klipu a jejich vizuální protějšky v podobě statických obrázků. Najeďte kurzorem myši nad každý snímek a zobrazte grafémový kontext každého vidu.
/p/, /b/ a /m/ jako kotevní body
Při hodnocení klipu i záběrů z Lachmanova vystoupení je zřejmé, že osvědčené zavřené bilabiály - /p/, /b/ a /m/ - se stále zavírají tak, jak mají. U /i/ je také vidět mírné zvětšení šířky koutku rtů a chvályhodné téměř uzavřené zaokrouhlení u /u/.
Obecně lze říci, že zatímco očekávané formy fonémů v porovnání s jejich skutečnými formami jsou velmi variabilní, některé skupiny fonémů jsou úzkostlivější než jiné a vyžadují rigidnější uspořádání artikulačních pozic. Pokud se zabýváte animací obličeje nebo výzkumem převodu zvuku na obličej, pravděpodobně jste již obeznámeni se strnulostí /p/, /b/ a /m/. /p/, /b/ a /m/ se obvykle řadí do stejné kategorie vidů: uzavřený tvar rtů. /p/, /b/ a /m/ jsou skvělými opěrnými body při hodnocení kvality a přesnosti simulované řeči. Máme je rádi, protože jsou vždy zavřené, že? ...Že ano?
/p/, /b/ a /m/: Tvrdá pravda
Bohužel, ačkoli bilabiály se zavřenými rty mohou být skvělým opěrným bodem, ani ty nejodolnější fonémy nejsou imunní vůči změnám. Otevřete si Pana Zvíře (nebo bych měl říct Nr. Veast) a sledujte, jak se vám hroutí svět, když se rty Veastu nedokážou zavřít pro velkou část /p/, /b/ a /m/. Ɱr. Veast je vášnivý labiodentalizátor. (Přečtěte si více o labiodentalizaci zde a zde).
Můžete být v pokušení namítnout, že pokud se rty nezavřou, zvuk se nepočítá jako /p/, /b/ nebo /m/; situace, kdy se rty nezavřou, však nezbavuje p, b nebo m jejich fonematického statusu a nebrání nám vnímat je jako p, b nebo m. Ve skutečnosti jsou tyto ne zcela uzavřené verze právě běžné. alofony /p/, /b/ a /m/.
Přečtěte si následující rozpis z Wikipedie:
Fáze 5: Přijetí
Přestože nejspolehlivější vidiny nejsou tak spolehlivé, jak se všeobecně věří, není všechna naděje ztracena. Jakmile se naučíte čelit FACS, chci říct - faktům, a přijmete je. chaos lidského chování a mechaniky, může být rozluštění našich složitostí podobných mrakům vzrušující. Na závěr uveďme procítěný úryvek od neurovědce, primatologa a kozího lektora, Robert Sapolsky:
Další zdroje pro synchronizaci rtů
Pro příklady vizémů, které jsou více rigidní a podobné hodinám, se podívejte na můj:
- Variabilita lidské řeči (nad rámec tabulek IPA)
- Jazykové základy
- Anatomie artikulace (čelist, rty, jazyk, zuby)
- Koartikulace a okrajové případy
- Proč “kanonické” vizemy nefungují
- Jak navrhovat modulární řečové systémy
- Řeč versus emoce (jak se mohou navzájem bránit nebo harmonizovat)
- Visemes, FACS a flexibilní vzorce blendshape