ARKit et autres erreurs de suivi des visages

Pourquoi tant de trackers de visage et d'avatars souffrent-ils d'un abaissement des sourcils faussement positif ? En utilisant l'ARKit d'Apple comme étude de cas, cette analyse explore la racine du problème et révèle une solution étonnamment simple à la fin. 

Avatars et sourires : Édition Memoji

L'abaissement faussement positif des sourcils est un problème très répandu dans le suivi des visages et l'animation des avatars. Bien que subtiles, ces erreurs peuvent déformer les expressions d'un avatar, introduisant des indices involontaires de tristesse, de colère ou d'inquiétude. Dans la vidéo ci-dessous, je teste le Memoji d'Apple pour démontrer ce problème en action.

 

Dans le clip ci-dessus, observez comment mon Memoji "reflète" mon sourire. Vous remarquez quelque chose d'étrange ou de désagréable ? Mes arcades sourcilières sont abaissées à tort. L'ajout d'un abaissement des sourcils mal attribué persiste dans différents types de sourires. Il persiste également chez d'autres utilisateurs.

Des sourcils intérieurs abaissés associés à une lèvre supérieure relevée (causés par rideau de nez ou lèvre supérieure) est souvent associée à des émotions désagréables. L'abaissement des sourcils est également en corrélation négative avec le sourire. Ces types d'erreurs de suivi sémantiquement significatives peuvent impliquer involontairement un sentiment négatif.

Comment ces erreurs se produisent-elles ?

Les abaissements de sourcils faussement positifs sont souvent dus à des problèmes de qualité des données, à des erreurs d'étiquetage et à des choix artistiques. Voici pourquoi ces problèmes persistent :

  1. La qualité des données n'est pas suffisamment prise en compte.
  2. L'art n'est pas suffisamment mis en valeur.

Partout où j'ai travaillé, on s'est tellement préoccupé d'embaucher des ingénieurs ayant une formation spécifique que les effectifs sont soustraits à d'autres rôles essentiels.

De nombreuses entreprises technologiques partent du principe que si elles acquièrent suffisamment de données pour entraîner leur modèle, les problèmes de qualité se résoudront d'eux-mêmes. Ouah ! C'est de la magie. Cette hypothèse repose souvent sur la croyance supplémentaire (mais fausse) qu'il n'existe qu'un pourcentage négligeable de données impures.

J'ai travaillé dans les tranchées des données et j'ai occupé presque toutes les fonctions non techniques dans le domaine de la traçabilité des visages :

  • planification des données - déterminer le type de données d'expression à collecter et la manière de les collecter
  • la collecte de données - travailler réellement avec les participants et les former à prendre les bonnes poses d'expression
  • annotation des données - déterminer les meilleurs moyens de labelliser les points de repère
  • classification des données - conseiller l'ingénierie sur les classes qui devraient exister, sur leurs paramètres et sur la manière de traiter leurs inévitables cas de figure
  • l'intensification - veiller à ce que les règles d'annotation et de classification soient normalisées et faciles à comprendre par les étiqueteurs de masse
  • suivi du suivi - comparer la vérité de terrain avec les résultats du suivi
  • l'identification des domaines à améliorer - déterminer quels sont les problèmes existants et comment ils peuvent être améliorés par la planification, la collecte, l'annotation et/ou la classification
  • développement d'avatars - l'élaboration de stratégies pour définir les formes à privilégier en fonction d'un ensemble de considérations telles que
    • en cas d'échec du tracker
    • quels sont les cas d'utilisation du produit final
    • ce qui sera le plus esthétique
    • ce qui est le plus important sur le plan sémantique

Grâce à mon expérience en science de l'expression, en anatomie faciale et à mon travail approfondi sur les données faciales, je peux affirmer en toute confiance que les données impures constituent un problème majeur, et non mineur, dans le suivi des visages. En bref, même si l'algorithme est parfait, des problèmes surviennent :

Données imposées impures

  • Lors de la collecte de données sur l'expression posée de participants humains, les données seront toujours contaminées. C'est garanti.
  • La plupart des gens ne peuvent pas toucher toutes les expressions cibles. Il est rare de trouver des données pures sur l'action du visage. Lorsque les participants effectuent des expressions impures, c'est soit parce qu'ils affichent la mauvaise action faciale, soit parce qu'ils sont incapables d'isoler l'expression cible sans utiliser des muscles faciaux supplémentaires non ciblés.
  • Pour couronner le tout, les responsables de l'acquisition des données sont souvent incapables de dire si le participant atteint l'expression cible. Ce manque de connaissances n'est pas imputable aux spécialistes de l'acquisition de données, mais plutôt aux priorités mal placées de l'entreprise X et à son manque d'attention à l'embauche et à la conservation des bons talents.

Mauvais étiquetage des données

  • En raison de l'accent mis sur les talents d'ingénierie, les entreprises négligent généralement de donner la priorité aux rôles d'étiquetage des données. Au lieu de cela, les efforts d'annotation sont souvent traités comme des postes de bas niveau destinés à des contractants sans expertise particulière.
  • Les contractants qui débutent avec peu d'expérience peuvent finir par se familiariser suffisamment avec les données pour acquérir une expertise ; toutefois, cela se produit rarement, car les postes de labellisation contractuelle connaissent généralement un taux de rotation élevé.

Choix artistiques non éclairés

  • Il est important que l'art comprenne la technologie et que la technologie comprenne l'art. Il y a une déconnexion stupéfiante entre l'art et l'ingénierie au sein des entreprises technologiques. Dans de nombreux cas, les bons traqueurs ne le sont pas en raison des traqueurs eux-mêmes, mais en raison des choix artistiques faits pour lutter contre une technologie immature en coulisses. Davantage de ressources devraient être investies pour combler le fossé entre l'art et l'ingénierie.

Retour à Memoji et à l'abaissement des sourcils en cas de faux positif

Comme indiqué au début de cet article, chaque fois que Memoji tente de refléter mon sourire, il y a un ajout inutile d'abaissement des sourcils aux coins intérieurs de mon front. Encore une fois, cet ajout persiste dans différents types de sourires.

Le graphique ci-dessous est un exemple de la manière dont l'interaction entre la qualité des données et l'art peut affecter diverses expressions de manière négative et entraîner des problèmes tels que l'abaissement des sourcils lors des sourires.

NOTE: Il peut bien sûr y avoir de multiples causes potentielles, y compris des problèmes avec l'algorithme lui-même ; cependant, cet aperçu est fait pour mettre en évidence un scénario spécifique avec un ensemble spécifique de conditions.

diagramme des questions relatives au suivi des visages et aux avatars utilisant les formes FACS

La décomposition

Plissement du nez et élévation de la lèvre supérieure sont deux actions faciales qui se ressemblent.

  • Elles sont souvent confondues entre elles, tant au niveau de la collecte des données qu'au niveau de l'étiquetage des données.
  • Parce que les entreprises technologiques n'investissent pas suffisamment dans la qualité des données, elles ne forment généralement pas d'employés capables d'identifier avec précision ou d'expliquer comment différencier les données. rideau de nez et lèvre supérieure.
  • Les erreurs dans la collecte et l'étiquetage des données passent inaperçues, et le talent est incapable de détecter les erreurs de suivi.

Une technique courante dans l'art consiste à utiliser lèvre supérieure comme complément de forme combo pour les sourires.

  • Parce que l'action de l'extracteur de coin de lèvres soulève la lèvre supérieure lorsqu'un sourire est intense, beaucoup supposent que ce mouvement est synonyme de lèvre supérieure. Ce n'est pas aussi simple.
  • De nombreux artistes utilisent le lèvre supérieure forme à combiner avec extracteur de coin de lèvre pour créer un sourire fort. Plus de détails ici.
  • Outre les questions d'esthétique et de précision, un problème flagrant subsiste : Si les lèvre supérieure est liée à le nez se plisse, lorsqu'un sourire fort est initié, il activera lèvre supérieure, qui activera alors rideau de nez. Par conséquent, lorsque quelqu'un sourit, ses sourcils s'abaissent. Mauvais.

La qualité des données ne fait pas l'objet d'une attention suffisante.
On n'accorde pas assez de crédit à l'art.

Résoudre le problème

La solution la plus simple ? S'éloigner de la FACS et s'appuyer sur l'anatomie faciale. La solution la plus simple pour réduire le nombre de faux positifs consiste à abaisser le niveau de l'eau par l'intermédiaire de rideau de nez et lèvre supérieure est d'honorer les propriétés des muscles à l'origine de ces actions.

D'un point de vue anatomique, ni le levator palpebrae superioris (lèvre supérieure ) ni le levator palpebrae superioris alaeque nasi (rideau de nez ) abaisse les sourcils. Ce n'est que dans les limites des règles de codage facial du FACS que l'abaissement des sourcils est lié au plissement du nez. 

Vous pouvez vous épargner des maux de tête en vous contentant de.. :

  1. revoir vos règles d'étiquetage afin de classer l'abaissement du front comme une action distincte de l'abaissement de la tête. rideau de nez
  2. redessinez vos blendshapes pour accueillir un rideau de nez sans baisser les sourcils de manière inhérente

Laisser un commentaire

Ce site utilise Akismet pour réduire les spams. Découvrez comment les données de vos commentaires sont traitées.

Conçu pour les studios et les équipes

Parlons-en.

facetheFACS@melindaozel.com