Ten post bada zawiłości technologii audio-to-face, wizji i artykulacji mowy - napisany z perspektywy ekspert ds. ruchów twarzy zajmujący się technologiami synchronizacji ruchu warg opartymi na sztucznej inteligencji.
Od dźwięku do twarzy: Walka jest prawdziwa
Żaden kształt ust nie definiuje konkretnego dźwięku mowy. Nasza artykulacja zmienia się wraz z każdym fonemem, sylabą i słowem, które wypowiadamy. Chociaż staramy się uprościć badania synchronizacji ruchu warg, przypisując kanoniczne kształty (lub visemes) do grup fonemów, w sensie absolutnym "właściwy" kształt nie istnieje. "Właściwy" kształt jest zawsze względny i zależy w dużej mierze od mnóstwa zmiennych warunków wykraczających poza proste UWAGA 1 problem koartykulacji. Dla osób pracujących nad animacją twarzy lub technologiami audio-to-face, rzeczywistość ta jest jednym z największych wyzwań w tworzeniu dokładnej i naturalnie wyglądającej mowy.
UWAGA 1: Chociaż koartykulacja niekoniecznie jest prosta, zaczyna wydawać się prosta, gdy zetkniesz się z rzeczywistością innych złożonych i nieprzewidywalnych warunków, które wpływają na artykulację.
Poród Gemmy z zaciśniętymi zębami w S02E07
Doskonałą ilustrację problemu viseme można zaobserwować w Odprawa Sezon 2, odcinek 7, kiedy postać znana jako Gemma pyta swojego antagonistę:
“Czy możesz po prostu mówić jak normalny człowiek?”
W amerykańskim angielskim wiersz ten można zapisać fonetycznie jako:
Kən ju pliz ʤʌst tɔk laɪk ə ˈ nɔrməl ˈpɜrsən?
Aktor grający Gemmę, Dichen Lachman, wypowiada swoją kwestię przez zaciśnięte zęby, używając niezwykle stonowanego stylu artykulacji. (Aby zobaczyć jej bardziej ożywioną linię bazową, proszę odnieść się do jej wypowiedzi przed 47 sekundą). Odczuwamy jej ból, gniew i frustrację, które powstrzymuje zaciśnięta szczęka i minimalnie poruszające się usta. Piękny występ dla widzów – ale niepokojący przykład z życia wzięty dla badaczy zajmujących się relacją między dźwiękiem a mimiką twarzy.
Od emocji po głośność i szybkość, czynniki wpływające na kształt ust w mowie wydają się nie mieć końca. Chociaż zaciśnięte zęby i wyciszone usta Gemmy nie wpływają na czytelność słuchową jej wypowiedzi, osoba czytająca z ruchu warg miałaby trudności z rozszyfrowaniem jej słów. Jej styl artykulacji poważnie zmienia oczekiwany wygląd wielu samogłosek i spółgłosek.
Fonemy i wizemy: Bliższe spojrzenie
Powyżej znajduje się ustabilizowany klip mowy Gemmy, podkreślający jej najbardziej kontrastowe kształty ust. UWAGA 2. Zauważ, że pomimo największego kontrastu, wiele z tych kształtów jest nierozróżnialnych i nie spełnia oczekiwanych cech powiązanych z nimi elementów wizualnych.
UWAGA 2: Nie wszystkie fonemy w mowie Gemmy zostały tutaj uchwycone. Wiele z nich zostało pominiętych, ponieważ były wizualnie nie do odróżnienia od otaczających dźwięków.
Poniżej przedstawiono ten sam zestaw fonemów z powyższego klipu oraz ich wizualne odpowiedniki w postaci nieruchomych obrazów. Najedź kursorem nad każde zdjęcie, aby wyświetlić kontekst graficzny dla każdego fonemu.
/p/, /b/ i /m/ jako punkty zaczepienia
Oceniając zarówno klip, jak i zdjęcia z występu Lachmana, oczywiste jest, że wypróbowane i prawdziwe bilabiale o zamkniętych wargach - /p/, /b/ i /m/ - nadal zamykają się tak, jak powinny. Można również zauważyć niewielki wzrost szerokości kącika warg dla /i/, a także godne pochwały prawie zamknięte zaokrąglenie dla /u/.
Ogólnie rzecz biorąc, podczas gdy oczekiwane formy wizualne fonemów w porównaniu z rzeczywistymi formami, które przyjmują, są niezwykle zmienne, niektóre grupy fonemów są bardziej wybredne niż inne i wymagają bardziej sztywnego układu pozycji artykulatorów. Jeśli zajmujesz się animacją twarzy lub badaniami audio-to-face, prawdopodobnie znasz już wytrzymałość /p/, /b/ i /m/. /p/, /b/ i /m/ są zazwyczaj grupowane w tej samej kategorii wizualnej: kształt zamkniętej wargi. /p/, /b/ i /m/ są świetnymi punktami zaczepienia podczas oceny jakości i dokładności symulowanej mowy. Uwielbiamy je, ponieważ zawsze się zamykają, prawda? ...Prawda?
/p/, /b/ i /m/: Twarda prawda
Niestety, choć zamknięte wargi bilabialne mogą być świetnymi punktami zaczepienia, nawet najbardziej wytrzymałe fonemy nie są odporne na wariacje. Otwórz Mr. Beast (lub powinienem powiedzieć, Nr. Veast) i obserwuj, jak twój świat się rozpada, gdy wargi Veast nie zamykają się dla dużej części /p/, /b/ i /m/. Ɱr. Veast jest zapalonym labiodentalizatorem. (Przeczytaj więcej o labiodentalizacji Tutaj oraz Tutaj).
Można pokusić się o argument, że jeśli wargi nie są zamknięte, dźwięk nie liczy się jako /p/, /b/ lub /m/; jednak sytuacja niecałkowicie zamkniętych warg nie pozbawia głosek p, b lub m ich statusu fonemicznego i nie powstrzymuje nas przed postrzeganiem ich jako p, b lub m. W rzeczywistości te nie do końca zamknięte wersje są po prostu powszechne alofony /p/, /b/ i /m/.
Przeczytaj poniższy podział z Wikipedii:
Etap 5: Akceptacja
Chociaż najbardziej wiarygodne wizje nie są tak wiarygodne, jak powszechnie sądzono, cała nadzieja nie jest stracona. Gdy nauczysz się stawiać czoła FACS, to znaczy - faktom, i zaakceptujesz chaos ludzkiego zachowania i mechanikiRozszyfrowanie naszej złożoności przypominającej chmurę może być ekscytujące. Zakończmy przejmującym fragmentem wypowiedzi neurobiologa, prymatologa i znanego wykładowcy, Robert Sapolsky:
Więcej zasobów dotyczących synchronizacji ruchu warg
Aby zapoznać się z bardziej sztywnymi i zegarowymi przykładami wizemów, zajrzyj do mojego:
- Zmienność mowy ludzkiej (poza wykresami IPA)
- Podstawy językowe
- Anatomia artykulacji (szczęka, usta, język, zęby)
- Koartykulacja i przypadki skrajne
- Dlaczego “kanoniczne” wizemy nie działają?
- Jak projektować modułowe systemy mowy
- Mowa a emocje (jak mogą one przeszkadzać lub harmonizować)
- Wizemy, FACS i elastyczne formuły blendshape