ARKit a další chyby při sledování obličeje

Proč tolik sledovačů obličeje a avatarů trpí falešně pozitivním snížením obočí? Na příkladu ARKitu od společnosti Apple se v tomto rozboru zabýváme příčinou tohoto problému a na konci odhalujeme překvapivě jednoduchou nápravu.

Avatary a úsměvy: Memoji Edition

Falešně pozitivní snížení obočí je rozšířeným problémem při sledování obličeje a animaci avatarů. Tyto chyby jsou sice nenápadné, ale mohou zkreslit výraz avatara a vnést do něj nechtěné náznaky smutku, hněvu nebo obav. V následujícím videu tento problém demonstruji na zátěžovém testu Memoji od společnosti Apple.

Na obrázku výše si všimněte, jak se v mém Memoji "zrcadlí" můj úsměv. Všimli jste si něčeho zvláštního nebo nepříjemného? Mé vnitřní koutky obočí jsou chybně snížené. Přídavek chybného snížení obočí přetrvává u různých typů úsměvů. Přetrvává i u ostatních uživatelů.

Snížené vnitřní obočí spolu se zvýšeným horním rtem (způsobené vráska na nose nebo zvedák horního rtu) je často spojen s nepříjemnými emocemi. S úsměvem negativně korelují také snížené špičky obočí. Tyto typy sémanticky významných chyb při sledování mohou neúmyslně implikovat negativní sentiment.

Jak tyto chyby vznikají

Falešně pozitivní snížení obočí často pramení z problémů s kvalitou dat, chyb v označování a uměleckých rozhodnutí. Zde jsou důvody, proč tyto problémy přetrvávají:

Na kvalitu dat není kladen dostatečný důraz.
Umění se nevěnuje dostatečná pozornost.

Všude, kde jsem pracoval, bylo tolik starostí s najímáním inženýrů se specifickým vzděláním, že počet zaměstnanců je odebrán z jiných důležitých funkcí.

Mnoho vedoucích pracovníků v oblasti technologií předpokládá, že pokud získají dostatek dat pro trénink svého modelu, problémy s kvalitou se jednoduše vyřeší samy. Wow! Kouzlo. Tento předpoklad často funguje na základě dalšího (ale falešného) přesvědčení, že existuje pouze zanedbatelné procento nečistých dat.

Byl jsem hluboko v datových zákopech a pracoval jsem téměř na všech neinženýrských pozicích v oblasti sledování tváří:

plánování dat - určení typu dat o vyjádření, která se mají shromažďovat, a způsobu jejich shromažďování.
sběr dat - skutečná práce s účastníky a jejich trénink správných výrazových poloh.
anotace dat - určování nejlepších způsobů označování orientačních bodů
klasifikace dat - poradenství inženýrům ohledně toho, které třídy by měly existovat, jaké jsou jejich parametry a jak řešit jejich nevyhnutelné okrajové případy.
zvyšování rozsahu - zajistit, aby pravidla pro anotaci a klasifikaci byla standardizovaná a snadno srozumitelná pro masové štítkovače.
sledování sledování - porovnání základní pravdy s výsledky sledování
identifikace oblastí pro zlepšení - zjištění, jaké problémy existují a jak je lze zlepšit pomocí plánování, sběru, anotace a/nebo klasifikace.
vývoj avatara - strategické rozhodování o tom, které tvary upřednostnit, na základě kombinace hledisek, jako jsou -
- kde sledování selhává
- jaké jsou případy použití konečného produktu
- co bude esteticky nejpříjemnější.
- co je sémanticky nejdůležitější

Vzhledem k mému vzdělání v oblasti výrazové vědy, anatomie obličeje a rozsáhlé práci s údaji o obličeji mohu s jistotou říci, že nečistá data jsou při sledování obličeje zásadním, nikoliv zanedbatelným problémem. Stručně řečeno, i když je algoritmus dokonalý, vznikají problémy:

Nečistá posunutá data

Při sběru dat o expresi póz od lidských účastníků budou data vždy kontaminována. Zaručeno.
Většina lidí se nedokáže trefit do všech cílových výrazů. Zřídkakdy lze nalézt čistá data o činnosti obličeje. Pokud účastníci předvádějí nečisté výrazy, je to proto, že buď zobrazují nesprávnou obličejovou akci, nebo proto, že nejsou schopni izolovat cílový výraz bez použití dalších, necílových obličejových svalů.
Ke všemu sběratelé dat často nedokážou určit, zda se účastník vůbec trefuje do cílového výrazu. Tento nedostatek znalostí není vinou sběračů dat, ale spíše špatně nastavených priorit společnosti X a nedostatečné pozornosti věnované najímání nebo udržení správných talentů.

Špatné označování dat

Vzhledem k tomu, že se společnosti soustředí na inženýrské talenty, obvykle zanedbávají upřednostňování rolí v oblasti označování dat. Místo toho se s anotacemi často zachází jako s nízkoúrovňovými pozicemi určenými pro dodavatele bez zvláštních odborných znalostí.
Dodavatelé, kteří začínají s malými zkušenostmi, se nakonec mohou s daty seznámit natolik, že získají odborné znalosti; to se však stává jen zřídka, protože role smluvních štítkovačů mají obecně vysokou fluktuaci.

Neinformované umělecké volby

Je důležité, aby umění rozumělo technice a technika umění. V technologických společnostech existuje ohromující nesoulad mezi uměním a technikou. V mnoha případech dobré trackery nevypadají dobře kvůli trackerům samotným, ale kvůli uměleckým rozhodnutím učiněným v boji proti nevyzrálé technice v pozadí. Do překlenutí propasti mezi uměním a inženýrstvím by se mělo investovat více prostředků.

Zpět na Memoji & falešně pozitivní snížení obočí

Jak jsem se zmínil na začátku tohoto příspěvku, kdykoli se Memoji pokusí zrcadlit můj úsměv, zbytečně se mi ve vnitřních koutcích obočí sníží obočí. Tento přídavek opět přetrvává u různých typů úsměvů.

Níže uvedený graf je příkladem toho, jak může interakce mezi kvalitou dat a uměním negativně ovlivnit různé výrazy a způsobit problémy, jako je pokles obočí při úsměvu.

POZNÁMKA: Příčin může být samozřejmě více, včetně problémů se samotným algoritmem; tento nástin je však vytvořen s cílem upozornit na konkrétní scénář s konkrétním souborem podmínek.

Rozdělení

Zvětšovač nosu a horního rtu jsou dva podobné obličejové úkony.

Často se vzájemně zaměňují jak na úrovni sběru dat, tak na úrovni jejich označování.
Protože technologické společnosti do kvality dat řádně neinvestují, obvykle si nevychovávají zaměstnance, kteří by dokázali přesně identifikovat nebo vysvětlit, jak rozlišit. vráska na nose a zvedák horního rtu.
Chyby při sběru dat i jejich označování zůstávají nepovšimnuty a talentovaní pracovníci nejsou schopni chyby při sledování zachytit.

Běžnou výtvarnou technikou je použití zvedák horního rtu jako doplněk kombinovaného tvaru pro úsměvy.

Vzhledem k tomu, že při intenzivním úsměvu zvedá horní ret, mnozí se domnívají, že tento pohyb je synonymem pro úsměv. zvedák horního rtu. Tak jednoduché to není.
Mnoho umělců používá zvedák horního rtu tvar pro kombinaci s stahovák rohů rtů vytvořit silný úsměv. Více informací naleznete zde.
Nehledě na estetické problémy a problémy s přesností zůstává zjevný problém: Pokud zvedák horního rtu je spojen s vrásky na nose, při silném úsměvu se aktivuje zvedák horního rtu, který pak aktivuje vráska na nose. Proto když se někdo usměje, jeho obočí se sníží. Špatné.

Kvalitě dat se nevěnuje dostatečná pozornost.
Umění není dostatečně oceňováno.

Řešení problému

Nejjednodušší oprava? Odstupte od FACS a opřete se o anatomii obličeje. Nejjednodušší řešení pro snížení falešně pozitivního procházení prostřednictvím vráska na nose a zvedák horního rtu je ctít vlastnosti svalů, které za těmito činnostmi stojí.

Z anatomického hlediska není levator palpebrae superioris (zvedák horního rtu sval) ani levator palpebrae superioris alaeque nasi (vráska na nose svalů) snižuje obočí. Pouze v rámci pravidel kódování obličeje FACS je snížení obočí spojeno s vráskami na nose.

Bolesti hlavy si můžete ušetřit, pokud jednoduše:

přepracovat pravidla pro označování tak, aby se spodní část obočí klasifikovala jako samostatná akce. vráska na nose
předělat tvary směsí tak, aby hostily vráska na nose bez přirozeného snížení obočí

Avatary a úsměvy: Memoji Edition

Jak tyto chyby vznikají

Zpět na Memoji & falešně pozitivní snížení obočí

Rozdělení

Řešení problému

Napsat komentář

Navrženo pro studia a týmy

Pojďme si promluvit.