ARKit i inne błędy w śledzeniu twarzy

Dlaczego tak wiele trackerów twarzy i awatarów cierpi z powodu fałszywie pozytywnego obniżenia brwi? Wykorzystując ARKit firmy Apple jako studium przypadku, ten podział bada źródło problemu i ujawnia zaskakująco prostą poprawkę na końcu. 

Awatary i uśmiechy: Memoji Edition

Fałszywie dodatnie obniżenie brwi jest powszechnym problemem w śledzeniu twarzy i animacji awatarów. Choć subtelne, błędy te mogą zniekształcać mimikę awatara, wprowadzając niezamierzone sygnały smutku, złości lub troski. W poniższym filmie testuję Memoji Apple, aby zademonstrować ten problem w akcji.

 

Na powyższym klipie obserwuj, jak moje Memoji "odzwierciedla" mój uśmiech. Zauważyłeś coś dziwnego lub nieprzyjemnego? Moje wewnętrzne kąciki brwi są błędnie obniżone. Dodanie błędnie przypisanego obniżenia brwi utrzymuje się w różnych typach uśmiechów. Utrzymuje się również u innych użytkowników.

Obniżone wewnętrzne brwi w połączeniu z podniesioną górną wargą (spowodowaną zmarszczka na nosie lub górna warga raiser) jest często związane z nieprzyjemnymi emocjami. Obniżone czubki brwi są również ujemnie skorelowane z uśmiechem. Tego typu semantycznie znaczące błędy śledzenia mogą nieumyślnie sugerować negatywne odczucia.

Jak powstają te błędy

Fałszywie dodatnie obniżenie brwi często wynika z problemów z jakością danych, błędów w etykietowaniu i wyborów artystycznych. Oto dlaczego te problemy się utrzymują:

  1. Nie kładzie się wystarczającego nacisku na jakość danych.
  2. Za mało uwagi poświęca się sztuce.

Wszędzie, gdzie pracowałem, było tak wiele obaw związanych z zatrudnianiem inżynierów z określonym doświadczeniem, że nie ma innych istotnych ról.

Wielu liderów technologicznych zakłada, że jeśli zdobędą wystarczającą ilość danych, aby wytrenować swój model, problemy z jakością po prostu same się rozwiążą. Wow! Magia. Założenie to często opiera się na dodatkowym (ale fałszywym) przekonaniu, że istnieje tylko znikomy procent nieczystych danych.

Byłem głęboko w okopach danych i pracowałem na prawie każdym stanowisku nieinżynieryjnym w śledzeniu twarzy:

  • planowanie danych - określenie, jakiego rodzaju wyrażenia dane należy zebrać i jak je zebrać
  • gromadzenie danych - rzeczywista praca z uczestnikami i szkolenie ich w celu trafienia we właściwe pozycje wyrazowe
  • anotacja danych - określenie najlepszych sposobów oznaczania punktów orientacyjnych
  • klasyfikacja danych - doradzanie inżynierom w zakresie tego, które klasy powinny istnieć, jakie są ich parametry i jak radzić sobie z nieuniknionymi przypadkami krańcowymi
  • skalowanie - upewnienie się, że zasady adnotacji i klasyfikacji są znormalizowane i łatwe do zrozumienia dla masowych etykieciarzy
  • śledzenie - porównywanie prawdy gruntowej z wynikami śledzenia
  • identyfikacja obszarów wymagających poprawy - ustalenie, jakie problemy istnieją i jak można je poprawić poprzez planowanie, zbieranie, adnotację i/lub klasyfikację
  • rozwój awatara - strategizowanie, które kształty należy uszeregować pod względem ważności w oparciu o szereg czynników, takich jak -
    • w przypadku awarii urządzenia śledzącego
    • jakie są przypadki użycia produktu końcowego
    • co będzie najbardziej estetyczne
    • co jest najistotniejsze z punktu widzenia semantyki

Dzięki mojemu doświadczeniu w nauce o ekspresji, anatomii twarzy i rozległej pracy z danymi twarzy, mogę śmiało powiedzieć, że nieczyste dane są głównym problemem w śledzeniu twarzy, a nie drobnym. Krótko mówiąc, nawet jeśli algorytm jest doskonały, problemy wynikają z:

Nieczyste dane pozorne

  • Podczas zbierania danych o pozowanych wyrażeniach od ludzi, dane te zawsze będą zanieczyszczone. Gwarantowane.
  • Większość ludzi nie może uderzyć w każde wyrażenie docelowe. Rzadko zdarza się znaleźć czyste dane o działaniu twarzy. Gdy uczestnicy wykonują nieczyste wyrażenia, dzieje się tak dlatego, że albo wykazują niewłaściwą czynność twarzy, albo nie są w stanie wyizolować docelowego wyrazu bez użycia dodatkowych, niecelowych mięśni twarzy.
  • Co więcej, osoby zajmujące się pozyskiwaniem danych często nie są w stanie stwierdzić, czy uczestnik w ogóle trafia w docelowe wyrażenie. Ten brak wiedzy nie jest winą osób zajmujących się akwizycją danych, ale raczej niewłaściwymi priorytetami firmy X i brakiem dbałości o zatrudnianie lub utrzymywanie odpowiednich talentów.

Złe oznaczanie danych

  • Ze względu na koncentrację na talentach inżynierskich, firmy zazwyczaj zaniedbują priorytetowe role związane z etykietowaniem danych. Zamiast tego wysiłki związane z adnotacjami są często traktowane jako stanowiska niskiego poziomu przeznaczone dla wykonawców bez szczególnej wiedzy specjalistycznej.
  • Kontrahenci rozpoczynający pracę z niewielkim doświadczeniem mogą w końcu stać się na tyle zestrojeni z danymi, aby zdobyć wiedzę specjalistyczną; jednak rzadko się to zdarza, ponieważ stanowiska związane z etykietowaniem kontraktowym mają zazwyczaj dużą rotację.

Nieprzemyślane wybory artystyczne

  • Ważne jest, aby sztuka rozumiała technologię, a technologia rozumiała sztukę. Istnieje zdumiewający rozdźwięk między sztuką a inżynierią w firmach technologicznych. W wielu przypadkach dobre trackery wyglądają dobrze nie z powodu samych trackerów, ale z powodu wyborów artystycznych dokonanych w celu zwalczania niedojrzałej technologii za kulisami. Należy zainwestować więcej zasobów w celu wypełnienia luki między sztuką a inżynierią.

Powrót do Memoji i fałszywie dodatnie obniżenie brwi

Jak wspomniano na początku tego wpisu, za każdym razem, gdy Memoji próbuje odzwierciedlić mój uśmiech, pojawia się niepotrzebne obniżenie brwi w wewnętrznych kącikach brwi. Ponownie, ten dodatek utrzymuje się w różnych typach uśmiechów.

Poniższy wykres jest przykładem tego, jak interakcja między jakością danych a sztuką może negatywnie wpływać na różne wyrażenia i powodować problemy, takie jak obniżenie brwi z uśmiechem.

UWAGA: Oczywiście może istnieć wiele potencjalnych przyczyn, w tym problemy z samym algorytmem; jednak ten zarys ma na celu podkreślenie konkretnego scenariusza z określonym zestawem warunków.

Schemat zagadnień śledzenia twarzy i awatarów przy użyciu kształtów FACS

Rozkładanie na czynniki pierwsze

Pomarszczka do nosa i górna maska do ust to dwie czynności twarzy, które wyglądają podobnie.

  • Często są one ze sobą mylone zarówno na poziomie gromadzenia danych, jak i na poziomie oznaczania danych.
  • Ponieważ firmy technologiczne nie inwestują odpowiednio w jakość danych, zwykle nie wspierają pracowników, którzy potrafią dokładnie zidentyfikować lub wyjaśnić, jak je rozróżnić zmarszczka na nosie oraz górna warga raiser.
  • Błędy w zbieraniu danych i etykietowaniu danych pozostają niezauważone, a talent nie jest w stanie wychwycić błędów śledzenia.

Powszechną techniką w sztuce jest użycie górna warga raiser jako dodatek do kształtu combo dla uśmiechu.

  • Ponieważ działanie ściągacza do kącików ust podnosi górną wargę, gdy uśmiech jest intensywny, wielu zakłada, że ten ruch jest synonimem górna warga. Nie jest to takie proste.
  • Wielu artystów korzysta z górna warga raiser kształt do połączenia z ściągacz do narożników warg by stworzyć silny uśmiech. Więcej szczegółów tutaj.
  • Pomijając kwestie estetyki i dokładności, pozostaje rażący problem: Jeśli górna warga raiser jest powiązany z zmarszczenie nosa, gdy silny uśmiech zostanie zainicjowany, aktywuje się górna warga, który następnie aktywuje zmarszczka na nosie. Dlatego, gdy ktoś się uśmiecha, jego brwi się obniżają. Źle.

Nie zwraca się wystarczającej uwagi na jakość danych.
Sztuce nie poświęca się wystarczająco dużo uwagi.

Naprawianie problemu

Najprostsze rozwiązanie? Odejdź od FACS i oprzyj się na anatomii twarzy. Najprostszym rozwiązaniem, aby zmniejszyć liczbę fałszywie dodatnich wyników przeglądania, jest obniżenie poprzez zmarszczka na nosie oraz górna warga raiser jest uhonorowanie właściwości mięśni stojących za tymi działaniami.

Z anatomicznego punktu widzenia, ani levator palpebrae superioris (górna warga raiser mięśni) ani levator palpebrae superioris alaeque nasi (zmarszczka na nosie mięśni) obniża brwi. Tylko w ramach zasad kodowania twarzy FACS obniżenie brwi jest powiązane ze zmarszczeniem nosa. 

Możesz zaoszczędzić sobie bólu głowy, jeśli po prostu:

  1. Przeprojektuj zasady etykietowania, aby sklasyfikować obniżenie brwi jako oddzielne działanie od zmarszczka na nosie
  2. przeprojektuj swoje kształty mieszania, aby hostować zmarszczka na nosie bez nieodłącznego obniżania brwi

Dodaj komentarz

Ta strona używa Akismet do redukcji spamu. Dowiedz się, jak przetwarzane są dane Twoich komentarzy.

Przeznaczony dla studiów i zespołów

Porozmawiajmy.

facetheFACS@melindaozel.com