Variabilité des visèmes : Les dents serrées et la parole en sourdine

séquence d'une femme (Gemma de Severance) prononçant des phonèmes et les formes qu'elle donne à ses lèvres
séquence d'une femme (Gemma de Severance) prononçant des phonèmes et les formes qu'elle donne à ses lèvres

Ce billet explore les subtilités de la technologie audio-to-face, des visages et de l'articulation de la parole - écrit du point de vue d'un expert en mouvements faciaux travaillant sur les technologies d'IA pour la synchronisation labiale.

De l'audio au visage : La lutte est réelle

Aucune forme de bouche ne définit à elle seule un son particulier. Notre articulation change à chaque phonème, syllabe et mot que nous prononçons. Bien que nous essayions de simplifier les études sur la synchronisation labiale en attribuant des formes canoniques (ou visemes) à des groupes de phonèmes, la "bonne" forme n'existe pas dans l'absolu. La "bonne" forme est toujours relative et dépend largement d'un grand nombre de conditions variables au-delà de la simple "forme". NOTE 1 problème de la coarticulation. Pour ceux qui travaillent dans le domaine de l'animation faciale ou des technologies audio-visuelles, cette réalité constitue l'un des plus grands défis dans la création d'une parole précise et naturelle.

NOTE 1: Bien que la coarticulation ne soit pas nécessairement simple, elle commence à sembler simple une fois que l'on a été exposé aux réalités d'autres conditions complexes et imprévisibles qui affectent l'articulation.

La livraison de Gemma dans le S02E07

Une illustration parfaite du problème des visages peut être observée dans les cas suivants Indemnité de départ Saison 2, épisode 7, lorsque le personnage connu sous le nom de Gemma demande à son antagoniste :

“ Pourrais-tu parler comme une personne normale, s'il te plaît ? ”

En anglais américain, cette ligne peut être transcrite phonétiquement comme suit :
Kən ju pliz ʤʌst tɔk laɪk ə ˈ nɔrməl ˈpɜrsən ?

L'acteur qui joue le rôle de Gemma, Dichen Lachman, prononce sa réplique en serrant les dents, avec une articulation extrêmement discrète. (Pour voir son ton plus animé, reportez-vous à son discours avant la 47e seconde.) Nous ressentons sa douleur, sa colère et sa frustration, contenues par sa mâchoire serrée et ses lèvres qui bougent à peine. Une belle performance pour les spectateurs, mais un exemple troublant dans le monde réel pour les chercheurs en audio-visuel.

Des émotions au volume et à la vitesse, les facteurs qui influencent la forme de la bouche dans la parole sont apparemment sans fin. Bien que les dents serrées et les lèvres muettes de Gemma n'affectent pas la lisibilité auditive de son discours, un lecteur de lèvres aurait du mal à décoder ses mots. Son style d'articulation altère gravement l'aspect attendu de nombreuses voyelles et consonnes.

Phonèmes et visèmes : Un examen plus approfondi

Ci-dessus, un extrait stabilisé du discours de Gemma mettant en évidence les formes les plus contrastées de ses lèvres. NOTE 2. Observez comment, bien qu'elles soient les plus contrastives, beaucoup de ces formes sont indiscernables et ne remplissent pas les caractéristiques attendues des visèmes qui leur sont associés.  

NOTE 2 : Tous les phonèmes du discours de Gemma n'ont pas été saisis ici. Beaucoup ont été laissés de côté parce qu'ils étaient visuellement indiscernables des sons environnants.

Vous trouverez ci-dessous le même ensemble de phonèmes que dans le clip ci-dessus et leurs équivalents visuels sous forme d'images fixes. Passez la souris au-dessus de chaque photo pour afficher le contexte graphémique de chaque voyème.

/p/'s /b/'s & /m/'s comme points d'ancrage

Lorsque l'on évalue le clip et les images fixes de la performance de Lachman, il est évident que les bilabiales à lèvres fermées éprouvées - /p/, /b/ et /m/ - se ferment toujours comme elles sont censées le faire. Vous pouvez également constater une légère augmentation de la largeur du coin des lèvres pour /i/ ainsi qu'un arrondi presque fermé louable pour /u/.

En général, bien que les formes visuelles attendues des phonèmes par rapport aux formes réelles qu'ils prennent soient extrêmement variables, certains groupes de phonèmes sont plus difficiles que d'autres et exigent une disposition plus rigide des positions des articulateurs. Si vous travaillez dans le domaine de l'animation faciale ou de la recherche audio-visuelle, vous êtes probablement déjà familiarisé avec la solidité de /p/, /b/ et /m/. Les /p/, /b/ et /m/ sont généralement regroupés dans la même catégorie de visèmes : une forme de lèvre fermée. Les /p/, /b/ et /m/ sont d'excellents points d'ancrage pour évaluer la qualité et la précision de la parole simulée. Nous les aimons parce qu'ils sont toujours fermés, n'est-ce pas ? ...Pas vrai ?

/p/'s /b/'s & /m/'s : La dure vérité

Malheureusement, bien que les bilabiales à lèvres fermées puissent constituer d'excellents points d'ancrage, même les phonèmes les plus robustes ne sont pas à l'abri des variations. Ouvrez un Mr. Beast (ou devrais-je dire, Nr. Veast) et regardez votre monde s'écrouler lorsque les lèvres du Veast ne se ferment pas pour une grande partie des /p/, /b/ et /m/. Ɱr. Veast est un adepte de la labiodentalisation. (En savoir plus sur la labiodentalisation ici et ici).

Vous pourriez être tenté de dire que si les lèvres ne se ferment pas, le son n'est pas considéré comme un /p/, /b/ ou /m/ ; cependant, la situation où les lèvres ne sont pas complètement fermées ne prive pas les p, les b ou les m de leur statut phonémique et ne nous empêche pas de les percevoir comme des p, des b ou des m. En fait, ces versions non complètement fermées sont tout simplement courantes allophones de /p/, /b/ et /m/.

Lisez la répartition suivante, tirée de Wikipedia :

...[ɱ] est extrêmement courant dans le monde sur le plan phonétique, car c'est l'allophone universel de /m/ et un allophone très courant de /n/ devant les fricatives labiodentales [f] et [v], comme par exemple en anglais comfort et circumvent, et, pour beaucoup de gens, infinitive et invent.

Le son [p̪͡f] apparaît occasionnellement en anglais, dans les mots où une syllabe se termine par "p" et la suivante commence par "f", comme dans "helpful" ou "stepfather".

Étape 5 : L'acceptation

Bien que les visions les plus fiables ne le soient pas autant qu'on le croit, tout espoir n'est pas perdu. Une fois que vous aurez appris à faire face aux FACS, c'est-à-dire aux faits, et que vous aurez embrassé les le chaos du comportement humain et de la mécaniqueIl peut être passionnant de décrypter nos complexités qui ressemblent à des nuages. Terminons par un extrait poignant d'un neuroscientifique, d'un primatologue et d'un conférencier chevronné, Robert Sapolsky:

Plus de ressources sur le play-back

Pour des exemples plus rigides et plus précis de visèmes, consultez mon :

Pour ceux qui recherchent des approches plus proches du cloud, mon Tout savoir sur le play-back Le cours explore plus en profondeur le chaos de l'articulation à travers des prismes anatomiques, linguistiques et adaptés à l'animation, couvrant les thèmes suivants :
  • Variabilité de la parole humaine (au-delà des tableaux IPA)
  • Fondements linguistiques
  • L'anatomie de l'articulation (mâchoire, lèvres, langue, dents)
  • Coarticulation et cas limites
  • Pourquoi les visèmes “ canoniques ” ne fonctionnent pas
  • Comment concevoir des systèmes vocaux modulaires
  • Discours vs émotions (comment ils peuvent se gêner ou s'harmoniser)
  • Visèmes, FACS et formules de blendshape flexibles

Conçu pour les studios et les équipes

Parlons-en.

facetheFACS@melindaozel.com