Овај пост истражује сложености технологије претварања звука у лице, визема и артикулације говора – написано из перспективе стручњак за покрете лица који ради на вештачким интелигенцијама за синхронизацију усана.
Од звука до лица: борба је стварна
Ниједан појединачни облик уста не дефинише одређени говорни звук. Наша артикулација се мења са сваким фонемом, слогом и речју коју изговоримо. Иако покушавамо да поједноставимо проучавање синхронизације уснама додељивањем канонских облика (или висеми) у групама фонема, у апсолутном смислу, “правилна” форма не постоји. “Правилна” форма је увек релативна и у великој мери зависи од низа променљивих услова изван једноставног НАПОМЕНА 1 проблем коартикулације. За оне који раде на анимацији лица или на технологијама за пренос звука на лице, ова стварност представља један од највећих изазова у стварању прецизног и природног говора.
НАПОМЕНА 1Иако коартикулација није нужно једноставна, почиње да делује једноставно када се суочите са стварностима других сложених и непредвидивих стања која утичу на артикулацију.
Гема, са стиснутим зубима, у С02Е07
Савршен пример проблема визема може се уочити у Отпремнина Сезона 2, епизода 7, када лик познат као Џема пита свог антагонисту:
“Можеш ли, молим те, само да причаш као нормална особа?”
У америчком енглеском, овај ред се може фонетски транскрибовати као:
Молим те, само говори као нормална особа?
Глумац који тумачи Џему, Дичен Лачман, изговара свој текст стиснутих зуба уз изузетно пригушен стил артикулације. (Да бисте видели њену живљу основнију изведбу, погледајте њен говор пре ознаке од 47 секунди.) Осећамо њену бол, бес и фрустрацију које задржава стиснута вилица и минимално покретне усне. Прекрасна изведба за гледаоце – али забрињавајући пример из стварног света за истраживаче у области превођења звука у израз лица.
Од емоција до јачине звука и брзине, чини се да фактори који утичу на облик уста приликом говора немају краја. Иако чврсто стиснути зуби и пригушене усне Геме не утичу на слушну читљивост њеног изражавања, читачу са усна читање би било веома тешко да дешифрује њене речи. Њен стил артикулације озбиљно мења очекидани изглед многих самогласника и сугласника.
Фонеми и виземи: ближи поглед
Горе је стабилизовани исечак Геминог говора који истиче њене најконтрастније облике усна. НАПОМЕНА 2. Уочите како, иако су најконтрастнији, многи од ових облика нису разликовани и не испуњавају очекиване карактеристике својих повезаних визема.
НАПОМЕНА 2: Овде нису обухваћене све фонеме у Геминином говору. Многе су изостављене јер су визуелно биле неразлучиве од околних звукова.
Испод је приказан исти скуп фонема из горе наведеног клипа и њихови визуелни еквиваленти као непокретне слике. Пређите курсором преко сваке фотографије да бисте видели графички контекст за сваки визем.
/p/'s /b/'s и /m/'s као прикључне тачке
Када се процене и снимци и фотографије Лахманове изведбе, јасно је да добро познати билабијали са затвореним уснама – /p/, /b/ и /m/ – и даље се затварају како треба. Такође се може уочити благи пораст ширине углова усна у изговору /i/, као и похвално скоро потпуно заобљавање у изговору /u/.
Уопштено, иако су очекивани виземи облици фонема у односу на стварне облике које они заузимају изузетно променљиви, неке групе фонема су захтевније од других и налажу строжији распоред положаја артикулатора. Ако се бавите фацијалном анимацијом или истраживањем аудио-у-лице, вероватно сте већ упознати са чврстоћом /p/, /b/ и /m/. /p/, /b/ и /m/ се обично групишу у исту виземе категорију: облик усне који се затвара. /p/, /b/ и /m/ су одличне прикључне тачке при процењивању квалитета и тачности симулисаног говора. Волимо их јер се увек затварају, зар не? …Зар не?
/p/'s /b/'s и /m/'s: Сурова истина
Нажалост, иако затворено-уснене гласове могу бити одличне ослонске тачке, чак ни најстабилније фонеме нису имуне на варијације. Отворите Mr. Beast (или, да кажем, Nr. Veast) и гледајте како се ваш свет руши док усне Веаста не успевају да се затворе током великог дела изговора звука /p/, /b/ и /m/. Ɱr. Veast је страствени лабиодентализатор. (Прочитајте више о лабиодентализацији овде и овде).
Можда ћете бити у искушењу да тврдите да ако усне не буду потпуно затворене, тај звук се не рачуна као /p/, /b/ или /m/; међутим, ситуација када усне нису потпуно затворене не одузима p, b или m њихов фонемски статус и не спречава нас да их доживљавамо као p, b или m. Заправо, ове верзије са несасвим затвореним уснама су једноставно уобичајене алофони од /p/, /b/ и /m/.
Прочитајте следећи преглед са Википедије:
Фаза 5: Прихватање
Иако најпоузданији виземи нису тако поуздани као што се широко верује, сва нада није изгубљена. Кад научиш да се суочиш са FACS-ом, мислим – чињеницама, и прихватиш хаос људског понашања и механике, дешифровање наших облачно-сличних сложености може бити узбудљиво. Завршимо са дирљивим одломком од неуробиолога, приматолога и предавача са брковима, Роберт Саполски:
Више ресурса за синхронизацију усна
За чвршће и сатније примере визема погледајте моје:
- Варијабилност људског говора (изаван табела МФА)
- Језички темељи
- Анатомија артикулације (вилица, усне, језик, зуби)
- Коартикулација и ивични случајеви
- Зашто “канонски” виземи не функционишу
- Како дизајнирати модуларне говорне системе
- Разум против емоције (како могу ометати или ускладити)
- Виземи, FACS и флексибилне блендшејп формуле