Variabilità del visema: Denti digrignati e discorso muto

sequenza di una donna (Gemma di Severance) che pronuncia i fonemi e le forme delle labbra che crea
sequenza di una donna (Gemma di Severance) che pronuncia i fonemi e le forme delle labbra che crea

Questo post esplora le complessità della tecnologia audio-facciale, dei visi e dell'articolazione del discorso, scritto dal punto di vista di una persona che ha un'esperienza di vita. esperto di movimenti facciali che lavora su tecnologie di sincronizzazione labiale basate sull'intelligenza artificiale.

Dall'audio al viso: La lotta è reale

Nessuna forma della bocca definisce un particolare suono del linguaggio. La nostra articolazione cambia con ogni fonema, sillaba e parola che pronunciamo. Anche se cerchiamo di semplificare gli studi sul sincronismo labiale assegnando forme canoniche (o visiere) a gruppi di fonemi, in senso assoluto la forma "giusta" non esiste. La forma "giusta" è sempre relativa e dipende in larga misura da una serie di condizioni variabili che vanno oltre la semplice NOTA 1 problema della coarticolazione. Per chi lavora nell'animazione facciale o nelle tecnologie audio-facciali, questa realtà rappresenta una delle maggiori sfide per la creazione di un parlato accurato e naturale.

NOTA 1: Sebbene la coarticolazione non sia necessariamente semplice, inizia a sembrarlo una volta che si è esposti alla realtà di altre condizioni complesse e imprevedibili che influenzano l'articolazione.

La consegna a denti stretti di Gemma nella S02E07

Un'illustrazione perfetta del problema del visema si può osservare in Severance Stagione 2, episodio 7, quando il personaggio noto come Gemma chiede al suo antagonista:

“Potresti parlare come una persona normale, per favore?”

In inglese americano, questo verso può essere foneticamente trascritto come:
Kən ju pliz ʤʌst tɔk laɪk ə ˈ nɔrməl ˈpɜrsən?

L'attore che interpreta Gemma, Dichen Lachman, pronuncia la sua battuta stringendo i denti con uno stile di articolazione estremamente smorzato. (Per vedere il suo tono di voce più animato, fate riferimento al suo discorso prima del segno dei 47 secondi). Percepiamo il suo dolore, la sua rabbia e la sua frustrazione trattenuti dalla mascella serrata e dalle labbra che si muovono minimamente. Una bella performance per gli spettatori, ma un esempio preoccupante nel mondo reale per i ricercatori che studiano il rapporto tra audio e volto.

Dalle emozioni al volume e alla velocità, i fattori che influenzano la forma della bocca nel parlato sono apparentemente infiniti. Sebbene i denti digrignati e le labbra smorzate di Gemma non influiscano sulla leggibilità uditiva del suo discorso, un lettore di labbra avrebbe difficoltà a decodificare le sue parole. Il suo stile di articolazione altera gravemente l'aspetto atteso di molte vocali e consonanti.

Fonemi e visemi: Uno sguardo più ravvicinato

Qui sopra una clip stabilizzata del discorso di Gemma che evidenzia le forme delle labbra più contrastanti. NOTA 2. Si osservi come, nonostante siano le più contrastanti, molte di queste forme siano indistinguibili e non soddisfino le caratteristiche previste dei visemi associati.  

NOTA 2: Non tutti i fonemi del discorso di Gemma sono stati catturati qui. Molti sono stati tralasciati perché visivamente indistinguibili dai suoni circostanti.

Qui di seguito viene mostrato lo stesso gruppo di fonemi del filmato precedente e le loro controparti visive come immagini fisse. Passare il mouse sopra ogni foto per visualizzare il contesto grafemico di ciascun visema.

Le /p/ /b/ e le /m/ come punti di ancoraggio

Valutando sia la clip che le immagini fisse della performance di Lachman, è evidente che le collaudate e vere bilabiali a labbro chiuso - /p/, /b/ e /m/ - si chiudono ancora come dovrebbero. Si nota anche un leggero aumento dell'ampiezza dell'angolo labiale per /i/ e un lodevole arrotondamento quasi chiuso per /u/.

In generale, mentre le forme visematiche previste per i fonemi rispetto alle forme reali che assumono sono estremamente variabili, alcuni gruppi di fonemi sono più rigidi di altri e richiedono una disposizione più rigida delle posizioni degli articolatori. Se vi occupate di animazione facciale o di ricerca audio-facciale, probabilmente conoscete già la robustezza di /p/, /b/ e /m/. Le /p/, /b/ e /m/ sono tipicamente raggruppate nella stessa categoria di visemi: la forma chiusa delle labbra. Le /p/, /b/ e /m/ sono ottimi punti di riferimento per valutare la qualità e l'accuratezza del parlato simulato. Ci piacciono perché sono sempre chiuse, giusto? ...Giusto?

/p/'s /b/'s e /m/'s: La dura verità

Sfortunatamente, anche se le bilabiali a labbra chiuse possono essere ottimi punti di ancoraggio, anche i fonemi più robusti non sono immuni da variazioni. Aprite un Mr. Beast (o dovrei dire Nr. Veast) e guardate il vostro mondo crollare mentre le labbra del Veast non si chiudono per gran parte delle /p/, /b/ e /m/. Ɱr. Veast è un avido labiodentalizzatore. (Per saperne di più sulla labiodentalizzazione qui e qui).

Si potrebbe essere tentati di sostenere che se le labbra non si chiudono, il suono non vale come una /p/, /b/ o /m/; tuttavia, la situazione di labbra non completamente chiuse non toglie alle p, alle b o alle m il loro status fonemico, e non ci impedisce di percepirle come p, b o m. In realtà, queste versioni non completamente chiuse sono solo comuni allofoni di /p/, /b/ e /m/.

Leggete la seguente ripartizione da Wikipedia:

...[ɱ] è estremamente comune in tutto il mondo dal punto di vista fonetico, in quanto è l'allofono universale di /m/ e un allofono molto comune di /n/ prima delle fricative labiodentali [f] e [v], come ad esempio in inglese comfort e circumvent e, per molti, infinitive e invent.

Il suono [p̪͡f] si verifica occasionalmente in inglese, in parole in cui una sillaba termina con 'p' e la successiva inizia con 'f', come in 'helpful' o 'stepfather'.

Fase 5: Accettazione

Anche se le visioni più affidabili non sono così affidabili come si crede, non tutte le speranze sono perdute. Una volta che si impara ad affrontare i FACS, cioè i fatti, e si abbraccia il caos del comportamento umano e meccanicadecifrare la nostra complessità simile a una nuvola può essere emozionante. Concludiamo con un frammento toccante di un neuroscienziato, primatologo e docente di goated, Robert Sapolsky:

Altre risorse per il lip sync

Per esempi più rigidi e precisi di visemi, dai un'occhiata al mio:

Per chi è alla ricerca di approcci più simili al cloud, il mio Tutto sul lip sync Il corso approfondisce il caos dell'articolazione da un punto di vista anatomico, linguistico e animato, trattando i seguenti argomenti:
  • Variabilità del linguaggio umano (oltre le tabelle IPA)
  • Fondamenti linguistici
  • L'anatomia dell'articolazione (mascella, labbra, lingua, denti)
  • Coarticolazione e casi limite
  • Perché i visemi “canonici” non funzionano
  • Come progettare sistemi vocali modulari
  • Discorso contro emozione (come possono ostacolarsi o armonizzarsi)
  • Visemi, FACS e formule flessibili di blendshape

Progettato per studi e team

Parliamone.

facetheFACS@melindaozel.com