Variabilidade do visema: Dentes cerrados e fala silenciosa

Sequência de uma mulher (Gemma, de Severance) falando fonemas e as formas labiais que ela faz
Sequência de uma mulher (Gemma, de Severance) falando fonemas e as formas labiais que ela faz

Esta postagem explora os meandros da tecnologia audio-to-face, dos visemas e da articulação da fala - escrita sob a perspectiva de um especialista em movimentos faciais que trabalha com tecnologias de sincronização labial baseadas em IA.

Do áudio para o rosto: A luta é real

Nenhuma forma de boca define um som específico da fala. Nossa articulação muda com cada fonema, sílaba e palavra que pronunciamos. Embora tentemos simplificar os estudos de sincronização labial atribuindo formas canônicas (ou visemes) a grupos de fonemas, em um sentido absoluto, a forma "correta" não existe. A forma "correta" é sempre relativa e depende muito de uma série de condições variáveis além da simples NOTA 1 problema da coarticulação. Para quem trabalha com animação facial ou com tecnologias de áudio para rosto, essa realidade é um dos maiores desafios na criação de uma fala precisa e natural.

NOTA 1: Embora a coarticulação não seja necessariamente simples, ela começa a parecer simples quando você é exposto à realidade de outras condições complexas e imprevisíveis que afetam a articulação.

Gemma's Gritted-Teeth Delivery In S02E07

Uma ilustração perfeita do problema do visema pode ser observada em Rescisão Temporada 2, Episódio 7, quando a personagem conhecida como Gemma pergunta ao seu antagonista:

“Você poderia falar como uma pessoa normal, por favor?”

Em inglês americano, essa linha pode ser transcrita foneticamente como:
Kən ju pliz ʤʌst tɔk laɪk ə ˈ nɔrməl ˈpɜrsən?

O ator que interpreta a Gemma, Dichen Lachman, diz sua fala com os dentes cerrados e um estilo de articulação extremamente abafado. (Para ver sua linha de base mais animada, consulte seu discurso antes da marca de 47 segundos.) Sentimos sua dor, raiva e frustração reprimidas por sua mandíbula cerrada e lábios minimamente movidos. Uma bela performance para os espectadores, mas um exemplo preocupante do mundo real para pesquisadores de áudio-para-rosto.

Das emoções ao volume e à velocidade, os fatores que afetam as formas da boca na fala são aparentemente intermináveis. Embora os dentes cerrados e os lábios silenciados de Gemma não afetem a legibilidade auditiva de sua fala, um leitor de lábios teria dificuldade para decodificar suas palavras. Seu estilo de articulação altera severamente a aparência esperada de muitas vogais e consoantes.

Fonemas e visemas: Um olhar mais atento

Acima está um clipe estabilizado da fala de Gemma, destacando suas formas labiais mais contrastantes NOTA 2. Observe como, apesar de serem as mais contrastantes, muitas dessas formas são indiscerníveis e não cumprem os recursos esperados de seus visemas associados.  

NOTA 2: Nem todos os fonemas da fala de Gemma são capturados aqui. Muitos foram deixados de fora, porque eram visualmente indistinguíveis dos sons ao redor.

Abaixo, mostramos o mesmo conjunto de fonemas do clipe acima e suas contrapartes visuais como imagens estáticas. Passe o mouse sobre cada foto para ver o contexto grafêmico de cada visema.

/p/'s /b/'s & /m/'s como pontos de ancoragem

Ao avaliar o clipe e as imagens estáticas do desempenho de Lachman, fica evidente que os bilabiais de lábio fechado testados e verdadeiros - /p/, /b/ e /m/ - ainda estão fechando como deveriam. Você também pode ver um ligeiro aumento na largura do canto labial para o /i/, bem como um arredondamento quase fechado louvável para o /u/.

Em geral, embora as formas visemas esperadas dos fonemas em relação às formas reais que eles assumem sejam extremamente variáveis, alguns grupos de fonemas são mais exigentes do que outros e exigem uma disposição mais rígida das posições do articulador. Se você trabalha com animação facial ou pesquisa de áudio para rosto, provavelmente já está familiarizado com a robustez de /p/, /b/ e /m/. /p/, /b/ e /m/ são normalmente agrupados na mesma categoria de visemas: um formato de lábio fechado. /p/, /b/ e /m/ são ótimos pontos de ancoragem ao avaliar a qualidade e a precisão da fala simulada. Nós os adoramos porque eles sempre fecham, certo? ...Certo?

/p/'s /b/'s & /m/'s: A dura verdade

Infelizmente, embora os bilabiais de lábio fechado possam ser ótimos pontos de ancoragem, mesmo os fonemas mais robustos não são imunes à variação. Abra um Mr. Beast (ou devo dizer, Nr. Veast) e veja seu mundo desmoronar enquanto os lábios do Veast não se fecham em uma grande parte dos /p/, /b/ e /m/. Ɱr. O Veast é um ávido labiodentalizador. (Leia mais sobre labiodentalização aqui e aqui).

Você pode ficar tentado a argumentar que, se os lábios não se fecharem, o som não conta como um /p/, /b/ ou /m/; no entanto, a situação de lábios não totalmente fechados não tira o status fonêmico dos p's, b's ou m's, e não nos impede de percebê-los como p's, b's ou m's. De fato, essas versões não totalmente fechadas são apenas comuns alofones de /p/, /b/ e /m/.

Leia a seguinte análise da Wikipedia:

...[ɱ] é extremamente comum em todo o mundo foneticamente, pois é o alofone universal de /m/ e um alofone muito comum de /n/ antes das fricativas labiodentais [f] e [v], como, por exemplo, em inglês comfort e circumvent, e, para muitas pessoas, infinitive e invent.

O som [p̪͡f] ocorre ocasionalmente em inglês, em palavras em que uma sílaba termina com 'p' e a seguinte começa com 'f', como em 'helpful' ou 'stepfather'.

Estágio 5: Aceitação

Embora os visemas mais confiáveis não sejam tão confiáveis quanto se acredita, nem toda esperança está perdida. Quando você aprender a encarar os FACS, ou seja, os fatos, e abraçar a caos do comportamento humano e da mecânicaSe você não sabe o que está fazendo, decifrar nossas complexidades semelhantes a nuvens pode ser empolgante. Vamos encerrar com um trecho comovente do neurocientista, primatologista e palestrante, Robert Sapolsky:

Mais recursos de sincronização labial

Para exemplos mais rígidos e precisos de visemas, confira meu:

Para aqueles que buscam abordagens mais semelhantes à nuvem, meu Tudo sobre sincronização labial O curso aprofunda-se no caos da articulação a partir de lentes anatômicas, linguísticas e favoráveis à animação, abrangendo:
  • Variabilidade da fala humana (além dos gráficos IPA)
  • Fundamentos linguísticos
  • A anatomia da articulação (mandíbula, lábios, língua, dentes)
  • Coarticulação e casos extremos
  • Por que os visemas “canônicos” não funcionam
  • Como projetar sistemas de fala modulares
  • Discurso versus emoção (como podem atrapalhar ou harmonizar)
  • Visemas, FACS e fórmulas flexíveis de blendshape

Projetado para estúdios e equipes

Vamos conversar.

facetheFACS@melindaozel.com