Warum leiden so viele Gesichts-Tracker und Avatare unter einer falsch-positiven Absenkung der Augenbrauen? Anhand von Apples ARKit als Fallstudie untersucht diese Analyse die Ursache des Problems und zeigt am Ende eine überraschend einfache Lösung auf.
Avatare & Lächeln: Memoji-Ausgabe
Falsch-positives Senken der Augenbrauen ist ein weit verbreitetes Problem bei der Gesichtsverfolgung und Avataranimation. Diese Fehler sind zwar subtil, können aber die Mimik eines Avatars verzerren und unbeabsichtigte Hinweise auf Traurigkeit, Wut oder Besorgnis geben. Im folgenden Video führe ich einen Stresstest mit Apples Memoji durch, um dieses Problem in Aktion zu demonstrieren.
Beobachten Sie im obigen Clip, wie mein Memoji mein Lächeln "widerspiegelt". Fällt Ihnen etwas Seltsames oder Unangenehmes auf? Meine inneren Brauenwinkel sind fälschlicherweise gesenkt. Das zusätzliche, falsch zugeordnete Senken der Augenbrauen tritt bei verschiedenen Arten von Lächeln auf. Dies ist auch bei anderen Benutzern der Fall.
Abgesenkte Innenbrauen gekoppelt mit einer angehobenen Oberlippe (verursacht durch Nasenfalte oder Oberlippenheber) wird häufig mit unangenehmen Gefühlen in Verbindung gebracht. Gesenkte Augenbrauen sind ebenfalls negativ mit Lächeln korreliert. Diese Arten von semantisch bedeutsamen Tracking-Fehlern können ungewollt negative Stimmungen implizieren.
Wie es zu diesen Fehlern kommt
Eine falsch-positive Senkung der Augenbrauen ist oft auf Probleme mit der Datenqualität, Beschriftungsfehler und künstlerische Entscheidungen zurückzuführen. Hier erfahren Sie, warum diese Probleme fortbestehen:
- Die Datenqualität wird nicht ausreichend berücksichtigt.
- Die Kunst wird nicht ausreichend berücksichtigt.
Überall, wo ich gearbeitet habe, gab es so viele Bedenken hinsichtlich der Einstellung von Ingenieuren mit einem bestimmten Hintergrund, dass Der Personalbestand wird von anderen wesentlichen Funktionen abgezogen.
Viele führende Techniker gehen davon aus, dass sich Qualitätsprobleme von selbst lösen, wenn sie genügend Daten zum Trainieren ihres Modells sammeln. Wow! Magie. Diese Annahme beruht oft auf dem zusätzlichen (aber falschen) Glauben, dass es nur einen vernachlässigbaren Prozentsatz an unsauberen Daten gibt.
Ich habe mich intensiv mit Daten beschäftigt und fast jede nicht-technische Funktion im Bereich der Gesichtserkennung ausgeübt:
- Datenplanung - Bestimmen, welche Art von Ausdrucksdaten zu sammeln sind und wie sie zu sammeln sind
- Datenerfassung - tatsächlich mit den Teilnehmenden arbeiten und sie darin schulen, die richtigen Ausdruckshaltungen einzunehmen
- Daten-Annotation - Bestimmung der besten Methoden zur Kennzeichnung von Orientierungspunkten
- Datenklassifizierung - Beratung des Ingenieurwesens darüber, welche Klassen es geben sollte, was ihre Parameter sind und wie man mit ihren unvermeidlichen Randfällen umgeht
- Vergrößern - sicherstellen, dass die Regeln für Anmerkungen und Klassifizierungen standardisiert und für Massenmarker leicht verständlich sind
- Überwachung der Verfolgung - Vergleich der Grundwahrheit mit der Verfolgung von Ergebnissen
- Identifizierung von Bereichen für Verbesserungen - herauszufinden, welche Probleme bestehen und wie sie durch Planung, Sammlung, Annotation und/oder Klassifizierung verbessert werden können
- Avatar-Entwicklung - die Strategie, welche Formen der Priorisierung auf der Grundlage einer Mischung von Überlegungen wie -
- wo der Tracker versagt
- was die Anwendungsfälle des Endprodukts sind
- was ästhetisch am ansprechendsten sein wird
- was semantisch am wichtigsten ist
Mit meinem Hintergrund in Mimikwissenschaft, Gesichtsanatomie und umfangreicher Arbeit mit Gesichtsdaten kann ich getrost sagen, dass unsaubere Daten ein großes Problem bei der Gesichtsverfolgung sind, kein kleines. Kurz gesagt, selbst wenn der Algorithmus perfekt ist, entstehen Probleme durch:
Unreine belastete Daten
- Beim Sammeln von Daten über die gestellte Expression von menschlichen Teilnehmern werden die Daten immer kontaminiert sein. Garantiert.
- Die meisten Menschen können nicht jeden Zielausdruck treffen. Es ist selten, reine Gesichtsaktionsdaten zu finden. Wenn Teilnehmer unsaubere Mimiken ausführen, liegt das daran, dass sie entweder die falsche Gesichtsaktion zeigen oder dass sie nicht in der Lage sind, den Zielausdruck zu isolieren, ohne zusätzliche, nicht zielgerichtete Gesichtsmuskeln einzusetzen.
- Zu allem Überfluss können die Datenerfasser oft nicht sagen, ob der Teilnehmer überhaupt den Zielausdruck trifft. Dieser Mangel an Wissen ist nicht den Datenerfassern anzulasten, sondern vielmehr den falschen Prioritäten von Unternehmen X und der mangelnden Aufmerksamkeit, die richtigen Talente einzustellen oder zu halten.
Schlechte Datenbeschriftung
- Aufgrund der starken Fokussierung auf technische Talente vernachlässigen Unternehmen in der Regel die Priorisierung von Datenbeschriftungsfunktionen. Stattdessen werden Beschriftungsaufgaben oft als niedrigschwellige Positionen für Auftragnehmer ohne besondere Fachkenntnisse behandelt.
- Auftragnehmer, die mit wenig Erfahrung beginnen, können sich mit der Zeit so weit mit den Daten vertraut machen, dass sie sich ein Fachwissen aneignen können; dies geschieht jedoch nur selten, da die Aufgaben der Vertragsetikettierung im Allgemeinen eine hohe Fluktuation aufweisen.
Uninformierte Kunstentscheidungen
- Es ist wichtig, dass die Kunst die Technik versteht und die Technik die Kunst. Es gibt eine erstaunliche Diskrepanz zwischen Kunst und Technik in Technologieunternehmen. In vielen Fällen sehen gute Tracker nicht wegen der Tracker selbst gut aus, sondern wegen der künstlerischen Entscheidungen, die getroffen wurden, um unausgereifte Technik hinter den Kulissen zu bekämpfen. Es sollten mehr Ressourcen investiert werden, um die Kluft zwischen Kunst und Technik zu überbrücken.
Zurück zu Memoji & Falsches positives Augenbrauenziehen
Wie bereits zu Beginn dieses Beitrags erwähnt, kommt es immer dann, wenn Memoji versucht, mein Lächeln zu spiegeln, zu einer unnötigen Absenkung der Augenbrauen an den inneren Ecken meiner Augenbrauen. Auch dieser Zusatz bleibt bei verschiedenen Arten von Lächeln bestehen.
Das nachstehende Diagramm ist ein Beispiel dafür, wie sich die Wechselwirkung zwischen Datenqualität und Kunst auf verschiedene Ausdrucksformen negativ auswirken und Probleme wie das Senken der Augenbrauen beim Lächeln verursachen kann.
ANMERKUNG: Es kann natürlich mehrere mögliche Ursachen geben, darunter auch Probleme mit dem Algorithmus selbst; dieser Überblick soll jedoch ein bestimmtes Szenario mit einer bestimmten Reihe von Bedingungen aufzeigen.
Aufschlüsselung
Nasenrunzeln und Oberlippenlifting sind zwei Gesichtshandlungen, die ähnlich aussehen.
- Sie werden häufig sowohl auf der Ebene der Datenerfassung als auch auf der Ebene der Datenkennzeichnung miteinander verwechselt.
- Da Technologieunternehmen nicht richtig in die Datenqualität investieren, fördern sie in der Regel keine Mitarbeiter, die genau erkennen oder erklären können, wie man Nasenfalte und Oberlippenheber.
- Fehler sowohl bei der Datenerfassung als auch bei der Datenbeschriftung bleiben unbemerkt, und Talente sind nicht in der Lage, Fehler bei der Nachverfolgung zu erkennen.
Eine gängige Technik in der Kunst ist die Verwendung von Oberlippenheber als Combo-Form-Zusatz für Lächeln.
- Da die Aktion des Lippenwinkelziehers die Oberlippe anhebt, wenn ein Lächeln intensiv ist, gehen viele davon aus, dass diese Bewegung gleichbedeutend ist mit Oberlippenheber. Ganz so einfach ist es nicht.
- Viele Künstler verwenden die Oberlippenheber Form zum Kombinieren mit Lippenwinkel-Abzieher um ein starkes Lächeln zu erzeugen. Weitere Einzelheiten finden Sie hier.
- Abgesehen von den Fragen der Ästhetik und der Genauigkeit, bleibt ein eklatantes Problem: Wenn Oberlippenheber ist gebunden an die Nase rümpfen, wenn ein starkes Lächeln ausgelöst wird, wird es aktiviert Oberlippenheber, die dann Folgendes aktivieren wird Nasenfalte. Wenn also jemand lächelt, werden die Augenbrauen gesenkt. Schlecht.
Der Datenqualität wird nicht genug Aufmerksamkeit geschenkt.
Der Kunst wird nicht genug Anerkennung gezollt.
Behebung des Problems
Die einfachste Lösung? Lösen Sie sich von FACS und orientieren Sie sich an der Gesichtsanatomie. Die einfachste Lösung zur Verringerung falsch-positiver Brauen ist die Senkung der Nasenfalte und Oberlippenheber ist es, die Eigenschaften der Muskeln zu würdigen, die hinter diesen Handlungen stehen.
Aus anatomischer Sicht ist weder der Levator palpebrae superioris (Oberlippenheber Muskel) noch Levator palpebrae superioris alaeque nasi (Nasenfalte Muskel) senkt die Augenbrauen. Nur im Rahmen der FACS-Kodierungsregeln für das Gesicht ist das Senken der Augenbrauen mit der Faltenbildung der Nase verbunden.
Sie können sich Kopfschmerzen ersparen, wenn Sie einfach:
- Ihre Kennzeichnungsregeln so umgestalten, dass das Absenken der Augenbrauen als eigenständige Aktion eingestuft wird. Nasenfalte
- Ihre Blendshapes neu gestalten, um eine Nasenfalte ohne inhärentes Senken der Augenbrauen