ARKit & andere Fehler bei der Gesichtsverfolgung

Dieser Beitrag ist ein Follow-up zu den Videos, die ich gemacht habe, um die Qualität der verschiedenen Tracking-Kits zu bewerten. Hier gehe ich ausführlicher auf ein bestimmtes Thema ein, das ich in Animoji gesehen habe.

Lächeln in Animoji

Sehen Sie im Video unten, wie Animoji mein Lächeln widerspiegelt. An den inneren Winkeln meiner Augenbrauen ist eine unnötige Brauenabsenkung hinzugefügt worden. Dieser Zusatz besteht in verschiedenen Arten des Lächelns, sowohl authentisch als auch unauthentisch. Sie bleibt auch bei einigen anderen Benutzern bestehen.

Abgesenkte Innenbrauen gekoppelt mit einer angehobenen Oberlippe (verursacht durch Nasenfalte oder Oberlippenheber) wird oft mit Ekel assoziiert. Zusätzlich ist das Senken der Stirn negativ mit Lächeln korreliert. Diese Arten von semantisch bedeutsamen Verfolgungsfehlern stellen unbeabsichtigterweise negative Gefühle dar.

 

wie es zu diesen Fehlern kommt

  1. Zu viel Fokus auf Technik. Nicht genug Fokus auf Datenqualität.
  2.  Zu viel Fokus auf Technik. Nicht genug Fokus auf Kunst.

Überall, wo ich gearbeitet habe, gab es so viele Bedenken hinsichtlich der Einstellung von Ingenieuren mit einem bestimmten Hintergrund, dass Der Personalbestand wird von anderen wesentlichen Funktionen abgezogen.

Viele technische Leiter leben in der Annahme, dass - wenn sie genügend Daten für das Training ihres Modells beschaffen, sich Qualitätsprobleme von selbst lösen werden. Wow! Zauberei. Diese Annahme operiert oft unter einer zusätzlichen (aber falschen) Annahme: Es gibt nur einen vernachlässigbaren Prozentsatz unsauberer Daten.

Ich bin tief in die Datengräben eingedrungen und habe in fast jeder nicht-technischen Rolle bei der Gesichtsverfolgung gearbeitet:

  • Datenplanung - Bestimmen, welche Art von Ausdrucksdaten zu sammeln sind und wie sie zu sammeln sind
  • Datenerfassung - tatsächlich mit den Teilnehmenden arbeiten und sie darin schulen, die richtigen Ausdruckshaltungen einzunehmen
  • Daten-Annotation - Bestimmung der besten Methoden zur Kennzeichnung von Orientierungspunkten
  • Datenklassifizierung - Beratung des Ingenieurwesens darüber, welche Klassen es geben sollte, was ihre Parameter sind und wie man mit ihren unvermeidlichen Randfällen umgeht
  • Vergrößern - sicherstellen, dass die Regeln für Anmerkungen und Klassifizierungen standardisiert und für Massenmarker leicht verständlich sind
  • Überwachung der Verfolgung - Vergleich der Grundwahrheit mit der Verfolgung von Ergebnissen
  • Identifizierung von Bereichen für Verbesserungen - herauszufinden, welche Probleme bestehen und wie sie durch Planung, Sammlung, Annotation und/oder Klassifizierung verbessert werden können
  • Avatar-Entwicklung - die Strategie, welche Formen der Priorisierung auf der Grundlage einer Mischung von Überlegungen wie -
    • wo der Tracker versagt
    • was die Anwendungsfälle des Endprodukts sind
    • was ästhetisch am ansprechendsten sein wird
    • was semantisch am wichtigsten ist

Als jemand mit einem technischen Hintergrund in der Mimikwissenschaft und Gesichtsanatomie - der auch diente all diesen Funktionen - ich bin hier, um Ihnen das mitzuteilen: Die Menge an unsauberen Daten in der Gesichtsverfolgungstechnologie ist alles andere als vernachlässigbar. Kurz gesagt - auch wenn der Algorithmus perfekt ist - ergeben sich daraus Probleme:

  • unsaubere gestellte Daten
    • Beim Sammeln von Daten über die gestellte Expression von menschlichen Teilnehmern werden die Daten immer kontaminiert sein. Garantiert.
    • Die meisten Menschen können nicht jeden Zielausdruck treffen. Es ist selten, reine Gesichtsaktionsdaten zu finden. Wenn Teilnehmer unsaubere Mimiken ausführen, liegt das daran, dass sie entweder die falsche Gesichtsaktion zeigen oder dass sie nicht in der Lage sind, den Zielausdruck zu isolieren, ohne zusätzliche, nicht zielgerichtete Gesichtsmuskeln einzusetzen.
    • Zu allem Überfluss können Datenerfasser oft nicht sagen, ob der Teilnehmer den Zielausdruck überhaupt trifft oder nicht. Dieser Mangel an Wissen ist nicht auf die Schuld der Datenakquisiteure zurückzuführen, sondern vielmehr auf die unangebrachten Prioritäten des Unternehmens X und die mangelnde Aufmerksamkeit für die Einstellung oder Bindung der richtigen Talente.
  • schlechte Datenbeschriftung
    • Da sich die meisten Technologieunternehmen so sehr darauf konzentrieren, Ingenieurstalente zu finden, vernachlässigen sie die Priorisierung der rollenbezogenen Datenkennzeichnung. Stattdessen werden die mit der Datenkennzeichnung verbundenen Bemühungen oft als Positionen auf niedriger Ebene behandelt, die für Auftragnehmer ohne besondere Fachkenntnisse bestimmt sind.
    • Auftragnehmer, die mit geringer Erfahrung anfangen, können mit der Zeit so weit mit den Daten in Einklang kommen, dass sie ein Gutachten erstellen können; dies geschieht jedoch nur selten, da die Aufgaben der Vertragsbeschriftung häufig eine hohe Fluktuation aufweisen.
  • uninformierte Kunstentscheidungen
    • Es ist wichtig für die Kunst, die Technik zu verstehen, und für die Technik, die Kunst zu verstehen. Es wird nicht genug betont, ein Verständnis auf beiden Seiten zu erlangen. Zwischen Kunst und Technik besteht oft eine große Diskrepanz. Aus diesem Grund sollten mehr Rollen aufgebaut werden, um beide Seiten zu verstehen, "Technologen schaffen"-artige Rollen.
    • Der Grund, warum gute Fährtenleser gut aussehen, liegt normalerweise nicht an den Fährtenlesern selbst, sondern an den künstlerischen Entscheidungen, die hinter den Kulissen gegen unausgereifte Technik getroffen werden.

zurück zu Animoji und warum meine inneren Augenbrauenecken immer tiefer werden, wenn ich lächle

Wie bereits zu Beginn dieses Beitrags erwähnt, gibt es jedes Mal, wenn Animoji versucht, mein Lächeln zu spiegeln, eine unnötige zusätzliche Absenkung der Stirn an den inneren Ecken meiner Stirn. Auch diese Hinzufügung besteht in verschiedenen Arten des Lächelns, sowohl authentisch als auch unauthentisch.

Das untenstehende Diagramm ist ein Beispiel dafür, wie die Interaktion zwischen Datenqualität und Kunst verschiedene Ausdrucksformen negativ beeinflussen und Probleme wie das Senken der Stirn beim Lächeln verursachen kann. (Ja, es gibt mehrere potentielle Ursachen, einschließlich Probleme mit dem Algorithmus selbst; dies ist jedoch eine Skizze eines Szenarios mit einem bestimmten Satz von Bedingungen).

ähnlich

es aufschlüsseln

Nasenrunzeln und Oberlippenlifting sind zwei Gesichtshandlungen, die ähnlich aussehen.

  •  Sie werden häufig sowohl auf der Ebene der Datenerfassung als auch auf der Ebene der Datenkennzeichnung miteinander verwechselt.
  • Da viele Technologieunternehmen nicht so viel in die Datenqualität investieren, wie sie sollten, beherbergen sie in der Regel keine Mitarbeiter, die genau verstehen oder erklären können, wie differenziert Nasenfalte und Oberlippenheber.
  • Fehler sowohl bei der Datenerfassung als auch bei der Datenbeschriftung bleiben unbemerkt, und Talente sind nicht in der Lage, Fehler bei der Nachverfolgung zu erkennen.

Eine gängige Technik in der Kunst (von der ich abrate) ist die Verwendung von Oberlippenhebern als Kombiformzusatz für das Lächeln.

  • Da die Aktion des Lippenwinkelziehers die Oberlippe anhebt, wenn ein Lächeln intensiv ist, gehen viele davon aus, dass diese Bewegung gleichbedeutend ist mit Oberlippenheber. Ist es nicht.
  • Viele Künstler verwenden die Oberlippenheber Form zum Kombinieren mit Lippenwinkel-Abzieher um ein starkes Lächeln zu erzeugen. Weitere Einzelheiten finden Sie hier.
  • Selbst wenn ich keine starken ästhetischen und auf Genauigkeit basierenden Probleme mit dieser Technik hätte, gäbe es immer noch ein großes Problem:
    • Wenn der Oberlippenheber an eine Nasenfalte gebunden wird, aktiviert er bei einem starken Lächeln den Oberlippenheber, der dann die Nasenfalte aktiviert. Wenn also jemand lächelt, werden die Augenbrauen gesenkt. Schlecht.

Der Datenqualität wird nicht genug Aufmerksamkeit geschenkt.
Der Kunst wird nicht genug Anerkennung gezollt.

Lösung des Problems

Zurück zu meinem Beitrag am Homogene Einstellungsgewohnheiten bei Big Tech, Diese Probleme können durch Einstellungsstrategien mit weniger Tunnelblick gemildert werden. Das maschinelle Lernen ist so weit fortgeschritten, dass fächerübergreifendes Fachwissen erforderlich ist. Stellen Sie die richtigen Leute ein und seien Sie nicht kurzsichtig in Bezug auf die Talentbedürfnisse.

 

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahren Sie mehr darüber, wie Ihre Kommentardaten verarbeitet werden .