Visem-Variabilität: Zähneknirschen und gedämpfte Sprache

Sequenz einer Frau (Gemma von Severance), die Phoneme murmelt und die Lippenformen, die sie macht
Sequenz einer Frau (Gemma von Severance), die Phoneme murmelt und die Lippenformen, die sie macht

Dieser Beitrag befasst sich mit den Feinheiten der Audio-to-Face-Technologie, den Visemen und der Sprachartikulation - geschrieben aus der Perspektive eines Experte für Gesichtsbewegungen, der an KI-Technologien für die Lippensynchronisation arbeitet.

Vom Audio zum Gesicht: Der Kampf ist real

Keine einzelne Mundform definiert einen bestimmten Sprachlaut. Unsere Artikulation ändert sich mit jedem Phonem, jeder Silbe und jedem Wort, das wir aussprechen. Obwohl wir versuchen, Studien zur Lippensynchronisation zu vereinfachen, indem wir kanonische Formen (oder visemes) zu Gruppen von Phonemen gibt es die "richtige" Form in einem absoluten Sinne nicht. Die "richtige" Form ist immer relativ und hängt stark von einer Reihe variabler Bedingungen ab, die über die einfache ANMERKUNG 1 Problem der Koartikulation. Für diejenigen, die in der Gesichtsanimation oder an Audio-to-Face-Technologien arbeiten, ist dies eine der größten Herausforderungen bei der Erstellung einer genauen und natürlich wirkenden Sprache.

ANMERKUNG 1: Obwohl die Koartikulation nicht unbedingt einfach ist, fühlt sie sich einfach an, sobald man die Realität anderer komplexer und unvorhersehbarer Bedingungen, die die Artikulation beeinflussen, kennengelernt hat.

Gemmas zähneknirschende Lieferung in S02E07

Eine perfekte Veranschaulichung des Problems der visuellen Darstellung findet sich in Abfindung Staffel 2, Folge 7, als die als Gemma bekannte Figur ihren Antagonisten fragt:

“Können Sie bitte einfach wie ein normaler Mensch sprechen?”

Im amerikanischen Englisch kann diese Zeile phonetisch wie folgt transkribiert werden:
Kən ju pliz ʤʌst tɔk laɪk ə ˈ nɔrməl ˈpɜrsən?

Der Schauspieler, der Gemma spielt, Dichen Lachman, spricht ihren Satz mit zusammengebissenen Zähnen und extrem gedämpfter Artikulation. (Um ihre lebhaftere Grundhaltung zu sehen, schauen Sie sich ihre Rede vor der 47-Sekunden-Marke an.) Wir spüren ihren Schmerz, ihre Wut und ihre Frustration, die sie durch ihr zusammengebissenes Kinn und ihre kaum bewegten Lippen zurückhält. Eine schöne Darbietung für die Zuschauer – aber ein beunruhigendes Beispiel aus der realen Welt für Forscher, die sich mit Audio-to-Face-Technologie beschäftigen.

Von Emotionen bis hin zu Lautstärke und Geschwindigkeit - die Faktoren, die die Mundform beim Sprechen beeinflussen, sind scheinbar unendlich. Obwohl Gemmas zusammengebissene Zähne und stumme Lippen die auditive Lesbarkeit ihres Vortrags nicht beeinträchtigen, hätte ein Lippenleser Mühe, ihre Worte zu entziffern. Ihr Artikulationsstil verändert das erwartete Aussehen vieler Vokale und Konsonanten erheblich.

Phoneme und Viseme: Ein genauerer Blick

Oben sehen Sie einen stabilisierten Ausschnitt von Gemmas Rede, der ihre kontrastreichsten Lippenformen hervorhebt ANMERKUNG 2. Beachten Sie, dass viele dieser Formen, obwohl sie am kontrastreichsten sind, nicht erkennbar sind und nicht die erwarteten Merkmale der zugehörigen Viseme erfüllen.  

ANMERKUNG 2: Nicht alle Phoneme in Gemmas Sprache sind hier erfasst. Viele wurden ausgelassen, weil sie visuell nicht von den umgebenden Lauten unterscheidbar waren.

Unten sehen Sie die gleichen Phoneme aus dem obigen Clip und ihre visuellen Entsprechungen als Standbilder. Bewegen Sie den Mauszeiger über jedes Foto, um den graphemischen Kontext für jedes Visem zu sehen.

/p/'s /b/'s & /m/'s als Ankerpunkte

Bei der Bewertung des Clips und der Standbilder von Lachmans Auftritt wird deutlich, dass sich die bewährten geschlossenen bilabialen Lippen - /p/, /b/ und /m/ - immer noch so schließen, wie sie sollen. Man kann auch eine leichte Vergrößerung der Lippenecken bei /i/ sowie eine lobenswerte fast geschlossene Rundung bei /u/ erkennen.

Im Allgemeinen sind die erwarteten visuellen Formen von Phonemen im Vergleich zu den tatsächlichen Formen, die sie annehmen, äußerst variabel, wobei einige Phonemgruppen pingeliger sind als andere und eine starrere Anordnung der Artikulatorpositionen erfordern. Wenn Sie sich mit Gesichtsanimation oder Audio-to-Face-Forschung befassen, sind Sie wahrscheinlich bereits mit der Starrheit von /p/, /b/ und /m/ vertraut. /p/, /b/ und /m/ werden in der Regel in dieselbe Visem-Kategorie eingeordnet: eine geschlossene Lippenform. /p/, /b/ und /m/ sind großartige Ankerpunkte bei der Bewertung der Qualität und Genauigkeit simulierter Sprache. Wir lieben sie, weil sie immer geschlossen sind, richtig? ...Richtig?

/p/'s /b/'s & /m/'s: Die harte Wahrheit

Leider sind selbst die robustesten Phoneme nicht gegen Schwankungen gefeit, auch wenn geschlossene Lippen großartige Ankerpunkte sein können. Öffnen Sie eine Mr. Beast (oder sollte ich sagen, Nr. Veast) und sehen Sie zu, wie Ihre Welt zusammenbricht, wenn die Lippen des Veast bei einem großen Teil der /p/, /b/ und /m/ nicht schließen. Ɱr. Veast ist ein eifriger Labiodentalisierer. (Lesen Sie mehr über Labiodentalisierung hier und hier).

Man ist vielleicht versucht zu argumentieren, dass der Laut nicht als /p/, /b/ oder /m/ gilt, wenn die Lippen nicht geschlossen sind; die Situation der nicht vollständig geschlossenen Lippen entzieht den p's, b's oder m's jedoch nicht ihren phonemischen Status, und sie hindert uns nicht daran, sie als p's, b's oder m's wahrzunehmen. In der Tat sind diese nicht vollständig geschlossenen Versionen einfach üblich Allophone von /p/, /b/, und /m/.

Lesen Sie die folgende Aufschlüsselung aus Wikipedia:

...[ɱ] ist weltweit phonetisch sehr verbreitet, da es das universelle Allophon von /m/ und ein sehr häufiges Allophon von /n/ vor den labiodentalen Frikativen [f] und [v] ist, wie z. B. im Englischen comfort und circumvent, und für viele Menschen Infinitiv und invent.

Der Laut [p̪͡f] kommt im Englischen gelegentlich in Wörtern vor, bei denen eine Silbe mit "p" endet und die nächste mit "f" beginnt, wie in "helpful" oder "stepfather".

Stufe 5: Akzeptanz

Auch wenn die zuverlässigsten Visionen nicht so zuverlässig sind, wie allgemein angenommen, ist noch nicht alle Hoffnung verloren. Wenn Sie lernen, den FACS, ich meine - Fakten, ins Auge zu sehen und sich die Chaos des menschlichen Verhaltens und der MechanikDie Entschlüsselung unserer wolkenartigen Komplexität kann aufregend sein. Lassen Sie uns mit einem ergreifenden Zitat des Neurowissenschaftlers, Primatenforschers und Dozenten abschließen, Robert Sapolsky:

Weitere Ressourcen zum Thema Lippensynchronisation

Weitere Beispiele für Viseme, die strenger und zeitabhängiger sind, finden Sie in meinem:

Für diejenigen, die eher cloudbasierte Ansätze suchen, ist mein Alles über Lippensynchronisation Der Kurs befasst sich eingehender mit dem Chaos der Artikulation aus anatomischer, linguistischer und animationsfreundlicher Perspektive und behandelt folgende Themen:
  • Variabilität der menschlichen Sprache (über die IPA-Tabellen hinaus)
  • Sprachliche Grundlagen
  • Die Anatomie der Artikulation (Kiefer, Lippen, Zunge, Zähne)
  • Koartikulation und Grenzfälle
  • Warum “kanonische” Viseme nicht funktionieren
  • Wie man modulare Sprachsysteme entwirft
  • Sprache vs. Emotion (wie sie sich gegenseitig behindern oder harmonisieren können)
  • Visemes, FACS und flexible Blendshape-Formeln

Entwickelt für Studios und Teams

Lass uns reden.

facetheFACS@melindaozel.com