Þessi færsla kannar flækjur í tækni sem umbreytir hljóði í andlitsdrætti, visemes og talframsetningu – skrifuð frá sjónarhóli a sérfræðingur í andlitshreyfingum sem vinnur að gervigreindartækni fyrir varahreyfingar.
Frá hljóði til andlits: Baráttan er raunveruleg
Engin einstök munnlagaform skilgreinir ákveðið talhljóð. Framfærsla okkar breytist með hverju hljóðmerki, atkvæði og orði sem við mælum. Þó að við reynum að einfalda rannsóknir á vörusamstillingu með því að úthluta kanónískum formum (eða sjónreitur) til hópa hljóðeininga, í algjörum skilningi, er “rétti” formið ekki til. “Rétti” formið er alltaf hlutlaust og ræðst að miklu leyti af fjölda breytilegra skilyrða umfram hið einfalda ATHUGIÐ 1 Vandamál samhreyfingar. Fyrir þá sem vinna við andlitsanímatíón eða tækni sem umbreytir hljóði í andlitshreyfingar er þessi raunveruleiki eitt af stærstu áskorunum við að búa til nákvæma og náttúrulega talhreyfingu.
ATHUGIÐ 1Þó að samliðun sé ekki endilega einföld, fer hún að virðast einföld þegar þú hefur kynnst raunveruleika annarra flókinna og ófyrirsjáanlegra aðstæðna sem hafa áhrif á liðun.
Gemma flytur með þrengd tönn í þáttaröð 2, þáttar 7
Fullkomin myndlíking af viseme-vandamálinu má sjá í Uppsagnarþóknun 2. þáttaröð, sjötti þáttur, þegar persónan sem kallast Gemma spyr andstæðing sinn:
“Geturðu vinsamlegast bara talað eins og venjulegur maður?”
Á bandarísku ensku má hljóðrita þessa setningu svona:
Geturðu vinsamlegast bara talað eins og venjulegur einstaklingur?
Leikarinn sem leikur Gemma, Dichen Lachman, Hún flytur línuna sína gegnum krossaða tennur með afar daufri framburðarstíl. (Til að sjá líflegra grunnform hennar, vísaðu til ræðu hennar fyrir 47. sekúndu merkið.) Við finnum sársauka, reiði og pirring sem haldast aftur af þröngu kjálkanum og varir hennar hreyfast lítið. Falleg frammistaða fyrir áhorfendur – en áhyggjuefni í raunheiminum fyrir rannsakendur sem vinna að hljóð-í-andlits rannsóknum.
Frá tilfinningum til hljóðstyrks og hraða virðast þættirnir sem hafa áhrif á lögun munnsins við tal aldrei enda. Þó að krossaðar tennur og þögul varir Gemmu hafi ekki áhrif á hljóðræna læsileika flutnings hennar, myndi varalestari eiga erfitt með að ráða orð hennar. Framgöngustíll hennar breytir verulega útliti margra sérhljóða og samhljóða.
Fónemar og vísemar: Nánari skoðun
Hér að ofan er stöðugur klippi af ræðu Gemmu sem dregur fram mótsagnakenndustu varalagaform hennar. Athugasemd 2. Athugaðu hvernig, þrátt fyrir að vera hvað andstæðukenndust, eru mörg af þessum formum óljós og uppfylla ekki væntanleg einkenni tengdra vísema.
Athugasemd 2: Ekki öll hljóðmerki í tali Gemmu koma fram hér. Mörg voru skorin burt, því þau voru sjónrænt ekki aðgreinanleg frá nágrannhljóðum.
Hér að neðan er sýnt sama safn hljóðeininga úr myndbandinu hér að ofan og sjónrænar samsvarandi einingar sem kyrrmyndir. Færðu músarbendilinn yfir hverja mynd til að sjá leturfræðilegt samhengi hvers visems.
/p/-, /b/- og /m/-hljóð sem akurpunkta
Þegar metnar eru bæði myndskeiðin og kyrrmyndirnar úr frammistöðu Lachmans er ljóst að hinir prófuðu og áreiðanlegu lokuðu vörubundnu hljóð – /p/, /b/ og /m/ – lokast enn eins og til er ætlast. Einnig má sjá örlítið aukna breidd varahornanna fyrir /i/ auk þess sem /u/ fær lofsverða, næstum lokaða hringlaga lögun.
Almennt, þó að væntu form visema hljóðeininga annars vegar og raunveruleg form þeirra hins vegar séu afar breytileg, eru sumar hljóðeiningahópar vandlátari en aðrir og krefjast strangari raðunar á stöðu framburðartækja. Ef þú ert í andlitsanímatíu eða rannsóknum á hljóð-til-andlitsbreytingu, þá þekkir þú líklega þegar stöðugleika /p/, /b/ og /m/. /p/, /b/ og /m/ eru yfirleitt flokkuð í sama visemaflokk: lokaða varalögun. /p/, /b/ og /m/ eru frábærir viðmiðunarpunktar þegar gæði og nákvæmni hermdrar töku eru metin. Við elskum þau því þau loka alltaf, ekki satt? …Ekki satt?
/p/'ar, /b/'ar og /m/'ar: Hin hörðu sannindi
Því miður, þótt lokuð varahljóð geti verið frábær festipunktar, eru jafnvel sterkustu hljóðeiningarnar ekki ónæmar fyrir breytingum. Opnaðu Mr. Beast (eða ætti ég að segja Nr. Veast) og horfðu á heiminn þinn molna niður þegar varir Veast-sins lokast ekki um stóran hluta af /p/, /b/ og /m/. Ɱr. Veast er ákafur varatannhvíslari. (Lestu meira um varatannhvíslun) hér og hér).
Þú gætir verið freistaður til að halda því fram að ef varirnar lokast ekki teljist hljóðið ekki sem /p/, /b/ eða /m/; þó dregur ófulllkomlega lokað varastöðu ekki úr hljóðanna /p/, /b/ eða /m/ sem hljóðkerfisþáttum, og hún hindrar okkur ekki í að skynja þau sem /p/, /b/ eða /m/. Í raun eru þessar ekki alveg lokuðu útgáfur einfaldlega algengar allófonar af /p/, /b/ og /m/.
Lestu eftirfarandi sundurliðun af Wikipedia:
Stig 5: Viðtaka
Þó að áreiðanlegustu vísemarnir séu ekki eins áreiðanlegir og víða er talið, er ekki öll von úti. Þegar þú lærir að takast á við FACS, ég meina – staðreyndir, og faðma Óreiða mannlegrar hegðunar og vélfræði, að ráða í skýjakenndum flækjum okkar getur verið spennandi. Ljúkum með áhrifamiklu broti frá taugavísindamanni, prímatfræðingi og geitahneigðum fyrirlesara, Robert Sapolsky:
Fleiri auðlindir um lip-sync
Fyrir stífari og klukkulíkari dæmi um visema, kíktu á:
- Breytileiki í mannlegu tali (umfram IPA-töflurnar)
- Tungumálsfræðilegur grunnur
- Líffærafræði hljóðmyndunar (kjálki, varir, tungu, tennur)
- Samtenging og jaðartilvik
- Af hverju “kanónískir” visemar virka ekki
- Hvernig á að hanna móduleg talkerfi
- Rök vs. tilfinningar (hvernig þær geta hindrað eða samhljómað)
- Visemes, FACS og sveigjanlegar blendshape-formúlur