ARKit e altri errori di tracciamento del volto

Perché così tanti face tracker e avatar soffrono di falsi positivi nell'abbassamento della fronte? Utilizzando ARKit di Apple come caso di studio, questa analisi esplora la radice del problema e rivela una soluzione sorprendentemente semplice. 

Avatar e sorrisi: Edizione Memoji

L'abbassamento falso-positivo delle sopracciglia è un problema molto diffuso nel tracciamento dei volti e nell'animazione degli avatar. Anche se impercettibili, questi errori possono distorcere le espressioni di un avatar, introducendo indicazioni indesiderate di tristezza, rabbia o preoccupazione. Nel video qui sotto, ho sottoposto a uno stress test le Memoji di Apple per dimostrare questo problema in azione.

 

Nella clip qui sopra, osservate come la mia Memoji "rispecchia" il mio sorriso. Notate qualcosa di strano o sgradevole? Gli angoli interni delle sopracciglia sono erroneamente abbassati. L'aggiunta di un abbassamento delle sopracciglia erroneamente attribuito persiste in vari tipi di sorrisi. Persiste anche in altri utenti.

Sopracciglia interne abbassate accoppiate con un labbro superiore rialzato (causato da Rughetta per il naso oppure alza labbro superiore) è spesso associata a emozioni spiacevoli. Anche le punte delle sopracciglia abbassate sono correlate negativamente al sorriso. Questi tipi di errori di tracciamento semanticamente significativi possono involontariamente implicare un sentimento negativo.

Come nascono questi errori

L'abbassamento falso-positivo delle sopracciglia spesso deriva da problemi di qualità dei dati, errori di etichettatura e scelte artistiche. Ecco perché questi problemi persistono:

  1. Non ci si concentra abbastanza sulla qualità dei dati.
  2. Non ci si concentra abbastanza sull'arte.

Ovunque abbia lavorato, c'è stata così tanta preoccupazione per l'assunzione di ingegneri con un background specifico che l'organico viene sottratto ad altri ruoli essenziali.

Molti tech lead partono dal presupposto che se acquisiscono abbastanza dati per addestrare il loro modello, i problemi di qualità si risolveranno da soli. Wow! Magia. Questo presupposto spesso si basa sull'ulteriore (ma falsa) convinzione che esista solo una percentuale trascurabile di dati impuri.

Ho lavorato in profondità nelle trincee dei dati e ho ricoperto quasi tutti i ruoli non ingegneristici nel rilevamento dei volti:

  • pianificazione dei dati - determinare quale tipo di dati di espressione raccogliere e come raccoglierli
  • raccolta dati - lavorare effettivamente con i partecipanti e addestrarli a colpire le giuste pose di espressione
  • annotazione dati - determinare i modi migliori per etichettare i punti di riferimento
  • classificazione dei dati - consigliare l'ingegneria su quali classi dovrebbero esistere, quali sono i loro parametri e come gestire i loro inevitabili casi limite
  • aumentare di scala - garantire che le regole per l'annotazione e la classificazione siano standardizzate e di facile comprensione per gli etichettatori di massa
  • monitoraggio del monitoraggio - confronto tra la verità del terreno e i risultati del monitoraggio
  • individuare le aree di miglioramento - capire quali problemi esistono e come possono essere migliorati attraverso la pianificazione, la raccolta, l'annotazione e/o la classificazione
  • sviluppo dell'avatar - la definizione di una strategia che definisce le priorità sulla base di un insieme di considerazioni quali -
    • dove il tracker si guasta
    • quali sono i casi d'uso del prodotto finale
    • ciò che sarà più bello dal punto di vista estetico
    • ciò che è più importante dal punto di vista semantico

Grazie al mio background nella scienza dell'espressione, nell'anatomia facciale e nell'ampio lavoro con i dati facciali, posso affermare con certezza che i dati impuri sono un problema importante nel tracciamento dei volti, non uno minore. In breve, anche se l'algoritmo è perfetto, i problemi derivano da:

Dati imposti impuri

  • Quando si raccolgono i dati delle espressioni in posa dei partecipanti umani, i dati saranno sempre contaminati. Garantito.
  • La maggior parte delle persone non riesce a colpire ogni espressione. È raro trovare dati di pura azione facciale. Quando i partecipanti eseguono espressioni impure, è perché stanno visualizzando l'azione facciale sbagliata o perché non sono in grado di isolare l'espressione di destinazione senza impiegare ulteriori muscoli facciali non bersaglio.
  • Come se non bastasse, gli acquisitori di dati spesso non sono in grado di dire se il partecipante sta colpendo l'espressione target. Questa mancanza di conoscenza non è imputabile agli acquisitori di dati, ma piuttosto alle priorità sbagliate dell'azienda X e alla sua scarsa attenzione nell'assumere o mantenere i giusti talenti.

Cattiva etichettatura dei dati

  • A causa dell'iperfocalizzazione sui talenti ingegneristici, le aziende in genere trascurano di dare priorità ai ruoli di etichettatura dei dati. Al contrario, le attività di annotazione vengono spesso trattate come posizioni di basso livello destinate a collaboratori senza particolari competenze.
  • Gli appaltatori che iniziano con poca esperienza possono alla fine entrare in sintonia con i dati tanto da acquisire una certa competenza; tuttavia, questo accade raramente, perché i ruoli di etichettatura a contratto hanno in genere un elevato turnover.

Scelte artistiche disinformate

  • È importante che l'arte comprenda la tecnologia e che la tecnologia comprenda l'arte. C'è una sconcertante disconnessione tra arte e ingegneria nelle aziende tecnologiche. In molti casi, i tracker di qualità non sono belli per i tracker stessi, ma per le scelte artistiche fatte per combattere la tecnologia immatura dietro le quinte. Si dovrebbero investire più risorse per colmare il divario tra arte e ingegneria.

Torna a Memoji e Falsi positivi per l'abbassamento del sopracciglio

Come accennato all'inizio di questo post, ogni volta che Memoji tenta di rispecchiare il mio sorriso, viene aggiunto un inutile abbassamento delle sopracciglia agli angoli interni delle stesse. Anche in questo caso, l'aggiunta persiste in vari tipi di sorriso.

Il grafico seguente è un esempio di come l'interazione tra la qualità dei dati e l'arte possa influire negativamente su varie espressioni e causare problemi come l'abbassamento delle sopracciglia con i sorrisi.

NOTA: Naturalmente le cause potenziali possono essere molteplici, compresi i problemi dell'algoritmo stesso; tuttavia, questo schema è stato realizzato per evidenziare uno scenario specifico con una serie di condizioni specifiche.

diagramma dei problemi di tracciamento dei volti e degli avatar utilizzando le forme FACS

Scomposizione

Rughetta per il naso e alza labbro superiore sono due azioni facciali che sembrano simili.

  • Spesso si confondono tra loro sia a livello di raccolta dati che di etichettatura dei dati.
  • Poiché le aziende tecnologiche non investono adeguatamente nella qualità dei dati, di solito non promuovono dipendenti in grado di identificare o spiegare con precisione come differenziare i dati. Rughetta per il naso e alza labbro superiore.
  • Gli errori sia nella raccolta dati che nell'etichettatura dei dati passano inosservati e il talento non è in grado di cogliere gli errori di tracciamento.

Una tecnica comune nell'arte è quella di utilizzare alza labbro superiore come componente aggiuntivo della forma combinata per i sorrisi.

  • Poiché l'azione del tiratore d'angolo del labbro solleva il labbro superiore quando il sorriso è intenso, molti ritengono che questo movimento sia sinonimo di alza labbro superiore. Non è così semplice.
  • Molti artisti utilizzano il alza labbro superiore forma da combinare con estrattore angolare a labbro per creare un sorriso forte. Maggiori dettagli qui.
  • A parte i problemi estetici e di precisione, rimane un problema evidente: Se alza labbro superiore è legato a naso più rugoso, quando viene avviato un sorriso forte, si attiverà alza labbro superiore, che attiverà Rughetta per il naso. Pertanto, quando qualcuno sorride, le sopracciglia si abbassano. Male.

Non si presta sufficiente attenzione alla qualità dei dati.
Non si dà abbastanza credito all'arte.

Risolvere il problema

La soluzione più semplice? Allontanarsi dalla FACS e puntare sull'anatomia facciale. La soluzione più semplice per ridurre i falsi positivi è l'abbassamento della fronte tramite Rughetta per il naso e alza labbro superiore è onorare le proprietà dei muscoli che stanno alla base di queste azioni.

Da un punto di vista anatomico, né il levatore palpebrale superiore (alza labbro superiore ) né levator palpebrae superioris alaeque nasi (Rughetta per il naso ) abbassa le sopracciglia. Solo nei limiti delle regole di codifica facciale FACS l'abbassamento delle sopracciglia è legato al corrugamento del naso. 

Potete risparmiarvi un bel mal di testa se semplicemente:

  1. ridisegnare le regole di etichettatura per classificare l'abbassamento delle sopracciglia come un'azione separata dalla Rughetta per il naso
  2. ridisegnare i blendshape per ospitare un Rughetta per il naso senza abbassare le sopracciglia

Lascia un commento

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati derivati dai commenti.

Progettato per studi e team

Parliamone.

facetheFACS@melindaozel.com