Varför lider så många ansiktsspårare och avatarer av falskt positiva brynnedsättningar? Med Apples ARKit som fallstudie utforskar denna uppdelning roten till problemet och avslöjar en förvånansvärt enkel lösning i slutet.
Avatarer och leenden: Memoji Edition
Falskt positiv sänkning av ögonbrynen är ett utbrett problem vid ansiktsspårning och avataranimering. Även om dessa fel är subtila kan de förvränga en avatars uttryck och introducera oavsiktliga signaler för sorg, ilska eller oro. I videon nedan stresstestar jag Apples Memoji för att demonstrera detta problem i aktion.
I klippet ovan kan du se hur min Memoji "speglar" mitt leende. Märker du något konstigt eller obehagligt? Mina inre ögonbrynshörn är felaktigt sänkta. Tillägget av felaktigt sänkta ögonbryn finns kvar i olika typer av leenden. Det kvarstår även hos andra användare.
Sänkta inre ögonbryn i kombination med en upphöjd överläpp (orsakad av näsrynka eller . Övre läpparna höjer sig.) är ofta förknippat med obehagliga känslor. Sänkta ögonbryn är också negativt korrelerade med leende. Dessa typer av semantiskt betydelsefulla spårningsmisstag kan oavsiktligt antyda negativa känslor.
Hur dessa misstag uppkommer
Falskpositiv sänkning av bryn beror ofta på problem med datakvalitet, märkningsfel och konstnärliga val. Här är varför dessa problem kvarstår:
- Det är inte tillräckligt fokus på datakvalitet.
- Det finns inte tillräckligt med fokus på konst.
Överallt där jag har arbetat har det funnits så mycket oro för att anställa ingenjörer med en viss bakgrund att personalstyrkan tas bort från andra viktiga roller.
Många tekniska leads antar att kvalitetsproblem helt enkelt kommer att lösa sig av sig själva om de samlar in tillräckligt med data för att träna sin modell. Wow! Magiskt. Detta antagande bygger ofta på en ytterligare (men falsk) övertygelse om att det bara finns en försumbar andel orena data.
Jag har varit djupt inne i datadikena och har arbetat med nästan alla icke-tekniska roller inom ansiktsspårning:
- planering av uppgifter - bestämma vilken typ av uttrycksdata som ska samlas in och hur den ska samlas in
- insamling av uppgifter - att faktiskt arbeta med deltagarna och träna dem i att ta de rätta uttrycksformerna
- uppgifter om kommentarer - fastställa de bästa sätten att märka landmärken
- Klassificering av uppgifter. - ge råd till ingenjörer om vilka klasser som bör finnas, vilka parametrar de ska ha och hur man hanterar deras oundvikliga kantfall
- öka skalningen - se till att reglerna för annotering och klassificering är standardiserade och lättförståeliga för massmärkare
- övervakning och spårning - Jämförelse av sanningen på marken med resultaten av spårningen.
- identifiera områden för förbättring - ta reda på vilka problem som finns och hur de kan förbättras genom planering, insamling, annotering och/eller klassificering
- utveckling av en avatar - Strategi för vilka former som ska prioriteras utifrån en blandning av olika aspekter, t.ex.
- när spåraren misslyckas
- vilka användningsområden för slutprodukten som finns
- vad som är mest estetiskt tilltalande
- vad som är mest semantiskt viktigt
Med min bakgrund inom uttrycksvetenskap, ansiktsanatomi och omfattande arbete med ansiktsdata kan jag med säkerhet säga att orena data är ett stort problem vid ansiktsspårning, inte ett litet. Kort sagt, även om algoritmen är perfekt uppstår problem på grund av:
Oren Posed Data
- När man samlar in data om poserade uttryck från mänskliga deltagare kommer data alltid att vara förorenade. Garanterat.
- De flesta människor kan inte träffa alla måluttryck. Det är sällsynt att hitta rena uppgifter om ansiktshandlingar. När deltagarna utför orena uttryck beror det på att de antingen visar fel ansiktsrörelse eller att de inte kan isolera måluttrycket utan att använda ytterligare ansiktsmuskler som inte är mål för uttrycket.
- Till råga på allt kan datainsamlarna ofta inte avgöra om deltagaren ens träffar måluttrycket. Denna brist på kunskap beror inte på datainsamlarna, utan snarare på företag X:s felaktiga prioriteringar och brist på uppmärksamhet när det gäller att anställa eller behålla rätt talanger.
Felaktig märkning av data
- På grund av ett hyperfokus på ingenjörstalanger försummar företag vanligtvis att prioritera datatillmärkningsroller. Istället behandlas annoteringsinsatser ofta som lågnivåpositioner som är avsedda för entreprenörer utan särskild expertis.
- Entreprenörer som börjar med liten erfarenhet kan så småningom bli tillräckligt insatta i data för att få en expertis; detta händer dock sällan, eftersom kontraktsmärkningsroller i allmänhet har hög omsättning.
Oinformerade val av konst
- Det är viktigt att konsten förstår tekniken, och att tekniken förstår konsten. Det finns en häpnadsväckande koppling mellan konst och teknik inom teknikföretag. I många fall ser bra trackers bra ut inte på grund av trackers själva, utan på grund av de konstnärliga val som gjorts för att bekämpa omogen teknik bakom kulisserna. Mer resurser bör investeras för att överbrygga klyftan mellan konst och teknik.
Tillbaka till Memoji och sänkning av falska positiva bryn
Som nämndes i början av det här inlägget, när Memoji försöker spegla mitt leende, läggs det till en onödig sänkning av ögonbrynen i de inre hörnen av mina ögonbryn. Återigen kvarstår detta tillägg i olika typer av leenden.
Diagrammet nedan är ett exempel på hur samspelet mellan datakvalitet och konst kan påverka olika uttryck på ett negativt sätt och orsaka problem som sänkta ögonbryn med leenden.
NOTERA: Det kan naturligtvis finnas flera potentiella orsaker, inklusive problem med själva algoritmen; denna översikt är dock gjord för att belysa ett specifikt scenario med en specifik uppsättning villkor.
Att bryta ner det
Näsrynkor och överläppshöjning är två ansiktshandlingar som ser likadana ut.
- De förväxlas ofta med varandra både när det gäller insamling och märkning av uppgifter.
- Eftersom teknikföretag inte investerar tillräckligt i datakvalitet har de vanligtvis inte heller anställda som kan identifiera eller förklara hur man skiljer näsrynka och Övre läpparna höjer sig..
- Misstag i både datainsamling och datamärkning går obemärkt förbi, och talangerna kan inte upptäcka spårningsfel.
En vanlig teknik inom konsten är att använda Övre läpparna höjer sig. som ett kombinationsformstillägg för leenden.
- Eftersom läpphörnan lyfter överläppen när ett leende är intensivt, antar många att denna rörelse är synonymt med Övre läpparna höjs upp. Det är inte riktigt så enkelt.
- Många konstnärer använder sig av Övre läpparna höjer sig. form för att kombinera med läpphörndragare för att skapa ett starkt leende. Mer information här.
- Bortsett från de estetiska aspekterna och precisionen kvarstår ett uppenbart problem: Om Övre läpparna höjer sig. är kopplad till näsan rynkar, när ett starkt leende initieras kommer det att aktiveras Övre läpparna höjs upp, som sedan kommer att aktivera näsrynka. Därför kommer ögonbrynen att sänkas när någon ler. Dåligt.
Datakvaliteten uppmärksammas inte tillräckligt.
Konsten får inte tillräckligt med uppskattning.
Åtgärda problemet
Den enklaste lösningen? Gå bort från FACS och luta dig mot ansiktets anatomi. Den enklaste lösningen för att minska antalet falska positiva sökningar är att sänka näsrynka och Övre läpparna höjer sig. är att hedra egenskaperna hos de muskler som ligger bakom dessa handlingar.
Ur anatomisk synvinkel kan varken levator palpebrae superioris (Övre läpparna höjer sig. muskel) eller levator palpebrae superioris alaeque nasi (näsrynka muskeln) sänker ögonbrynen. Det är endast inom ramen för FACS kodningsregler för ansiktsbehandling som sänkta ögonbryn är kopplade till rynkad näsa.
Du kan spara dig själv en huvudvärk om du helt enkelt:
- omarbeta dina märkningsregler för att klassificera brow lowerer som en separat åtgärd från näsrynka
- designa om dina blendshapes för att vara värd för en näsrynka utan inneboende sänkning av ögonbrynen