Este artículo explora los entresijos de la tecnología de audio a cara, los visemas y la articulación del habla, escrito desde la perspectiva de un profesional de la tecnología. Experto en movimientos faciales que trabaja en tecnologías de sincronización labial con IA..
De Audio a Cara: La lucha es real
No hay una forma de boca única que defina un sonido del habla concreto. Nuestra articulación cambia con cada fonema, sílaba y palabra que pronunciamos. Aunque intentamos simplificar los estudios de sincronización labial asignando formas canónicas (o visemes) a grupos de fonemas, en un sentido absoluto, la forma "correcta" no existe. La forma "correcta" es siempre relativa y depende en gran medida de una serie de condiciones variables que van más allá de la simple NOTA 1 problema de la coarticulación. Para quienes trabajan en animación facial o en tecnologías audiofaciales, esta realidad es uno de los mayores retos a la hora de crear un habla precisa y de aspecto natural.
NOTA 1: Aunque la coarticulación no es necesariamente sencilla, empieza a parecerlo una vez que te has expuesto a la realidad de otras condiciones complejas e impredecibles que afectan a la articulación.
Gemma's Gritted-Teeth Delivery In S02E07
Una ilustración perfecta del problema de los visemas puede observarse en Indemnización por despido Temporada 2, Episodio 7, cuando el personaje conocido como Gemma le pregunta a su antagonista:
“¿Podrías hablar como una persona normal, por favor?”
En inglés americano, esta línea puede transcribirse fonéticamente como:
No te preocupes, ¿hay algo más?
El actor que interpreta a Gemma, Dichen Lachman, pronuncia su frase con los dientes apretados y un estilo de articulación extremadamente apagado. (Para ver su línea de base más animada, consulte su discurso antes del segundo 47). Sentimos su dolor, ira y frustración reprimidos por su mandíbula apretada y sus labios mínimamente móviles. Una hermosa actuación para los espectadores, pero un ejemplo preocupante en el mundo real para los investigadores del audio-cara.
Desde las emociones hasta el volumen y la velocidad, los factores que afectan a la forma de la boca en el habla parecen no tener fin. Aunque los dientes apretados y los labios apagados de Gemma no afectan a la legibilidad auditiva de su discurso, un lector de labios se vería en apuros para descifrar sus palabras. Su estilo de articulación altera gravemente el aspecto esperado de muchas vocales y consonantes.
Fonemas y visemas: Una mirada más atenta
Arriba se muestra un clip estabilizado del discurso de Gemma en el que se destacan sus formas labiales más contrastadas NOTA 2. Obsérvese cómo, a pesar de ser las más contrastadas, muchas de estas formas son indiscernibles y no cumplen las características esperadas de sus visemas asociados.
NOTA 2: Aquí no se recogen todos los fonemas del habla de Gemma. Muchos se omitieron porque no se distinguían visualmente de los sonidos circundantes.
A continuación se muestra el mismo conjunto de fonemas del clip anterior y sus equivalentes visuales en forma de imágenes fijas. Pase el ratón por encima de cada foto para ver el contexto grafémico de cada visema.
/p/'s /b/'s & /m/'s como puntos de anclaje
Al evaluar tanto el clip como las imágenes fijas de la actuación de Lachman, es evidente que las bilabiales de labio cerrado - /p/, /b/ y /m/ - siguen cerrándose como es debido. También se aprecia un ligero aumento de la anchura de la comisura labial de la /i/, así como un loable redondeo casi cerrado de la /u/.
En general, aunque las formas visemáticas esperadas de los fonemas frente a las formas reales que adoptan son extremadamente variables, algunos grupos de fonemas son más quisquillosos que otros y exigen una disposición más rígida de las posiciones de los articuladores. Si te dedicas a la animación facial o a la investigación audio-facial, probablemente ya estés familiarizado con la rigidez de /p/, /b/ y /m/. Las /p/, /b/ y /m/ suelen agruparse en la misma categoría de visemas: una forma labial cerrada. Las letras /p/, /b/ y /m/ son excelentes puntos de referencia para evaluar la calidad y precisión del habla simulada. Nos encantan porque siempre se cierran, ¿verdad? ...¿Verdad?
/p/'s /b/'s & /m/'s: La cruda realidad
Desgraciadamente, aunque las bilabiales de labios cerrados pueden ser grandes puntos de anclaje, ni siquiera los fonemas más robustos son inmunes a las variaciones. Abre un Mr. Beast (o debería decir, Nr. Veast) y observa cómo se desmorona tu mundo cuando los labios de la Veast no se cierran en una gran parte de las /p/, /b/ y /m/. Ɱr. Veast es un ávido labiodentalizador. (Más información sobre labiodentalización aquí y aquí).
Se puede argumentar que si los labios no se cierran, el sonido no cuenta como /p/, /b/ o /m/; sin embargo, el hecho de que los labios no se cierren del todo no despoja a las p, b o m de su estatus fonémico, ni impide que las percibamos como p, b o m. De hecho, estas versiones no cerradas no son más que versiones fonémicas comunes. De hecho, estas versiones no completamente cerradas son simplemente comunes. alófonos de /p/, /b/ y /m/.
Lea el siguiente desglose de Wikipedia:
Etapa 5: Aceptación
Aunque los visemas más fiables no lo son tanto como se cree, no se ha perdido toda esperanza. Una vez que aprendas a enfrentarte a los FACS, quiero decir - hechos, y abraces la caos del comportamiento humano y mecánicadescifrar nuestras complejidades en forma de nube puede ser apasionante. Terminemos con un fragmento conmovedor del neurocientífico, primatólogo y conferenciante, Robert Sapolsky:
Más recursos sobre sincronización labial
Para ver ejemplos más rígidos y precisos de visemas, échale un vistazo a mi:
- Variabilidad del habla humana (más allá de las tablas del AFI)
- Fundamentos lingüísticos
- La anatomía de la articulación (mandíbula, labios, lengua, dientes)
- Coarticulación y casos extremos
- ¿Por qué no funcionan los visemas “canónicos”?
- Cómo diseñar sistemas de voz modulares
- El discurso frente a la emoción (cómo pueden obstaculizarse o armonizarse)
- Visemas, FACS y fórmulas flexibles de blendshape