Waarom hebben zoveel gezichtstrackers en avatars last van vals-positieve wenkbrauwverlagingen? Met Apple's ARKit als casestudy onderzoekt deze analyse de oorzaak van het probleem en onthult aan het eind een verrassend eenvoudige oplossing.
Avatars & glimlachen: Memoji editie
False-positieve wenkbrauwverlaging is een wijdverspreid probleem in gezichtsherkenning en avataranimatie. Hoewel ze subtiel zijn, kunnen deze fouten de uitdrukkingen van een avatar vervormen en onbedoelde signalen voor verdriet, boosheid of bezorgdheid introduceren. In de onderstaande video test ik de Memoji van Apple om dit probleem in actie te laten zien.
Kijk in het filmpje hierboven hoe mijn Memoji mijn glimlach "weerspiegelt". Zie je iets vreemds of onaangenaams? Mijn binnenste wenkbrauwhoeken zijn abusievelijk verlaagd. De toevoeging van verkeerd toegewezen verlaagde wenkbrauwen komt voor in verschillende soorten glimlachen. Het komt ook voor bij andere gebruikers.
Verlaagde wenkbrauwen in combinatie met een opgetrokken bovenlip (veroorzaakt door neusrimpelaar of bovenlipverhoger) wordt vaak geassocieerd met onplezierige emoties. Verlaagde wenkbrauwen zijn ook negatief gecorreleerd met glimlachen. Dit soort semantisch significante volgfouten kunnen onbedoeld negatief sentiment impliceren.
Hoe deze fouten ontstaan
Vals-positieve wenkbrauwverlagingen zijn vaak het gevolg van problemen met de gegevenskwaliteit, etiketteringsfouten en artistieke keuzes. Dit is waarom deze problemen blijven bestaan:
- Er is niet genoeg aandacht voor gegevenskwaliteit.
- Er is niet genoeg aandacht voor kunst.
Overal waar ik heb gewerkt, was er zoveel bezorgdheid over het aannemen van ingenieurs met een specifieke achtergrond dat personeel wordt weggehaald bij andere essentiële functies.
Veel techneuten gaan ervan uit dat als ze maar genoeg gegevens verzamelen om hun model te trainen, problemen met de kwaliteit zich vanzelf oplossen. Wow! Magie. Deze veronderstelling gaat vaak uit van een aanvullend (maar onjuist) geloof dat er slechts een verwaarloosbaar percentage onzuivere gegevens is.
Ik heb diep in de data loopgraven gezeten en heb bijna elke niet-technische rol vervuld in het traceren van gezichten:
- dataplanning - bepalen welk type expressiegegevens verzameld moet worden en hoe deze verzameld moeten worden
- gegevensverzameling - daadwerkelijk met deelnemers werken en hen trainen om de juiste expressiehoudingen aan te nemen
- gegevensannotatie - de beste manieren bepalen om herkenningspunten te labelen
- gegevensindeling - engineering adviseren over welke klassen er moeten zijn, wat hun parameters zijn en hoe om te gaan met hun onvermijdelijke randgevallen
- schaalvergroting - ervoor zorgen dat de regels voor annotatie en classificatie gestandaardiseerd en gemakkelijk te begrijpen zijn voor labelaars op grote schaal
- bewaking volgen - grondwaarheid vergelijken met trackingresultaten
- gebieden identificeren die voor verbetering vatbaar zijn - uitzoeken welke problemen er zijn en hoe ze kunnen worden verbeterd via planning, verzameling, annotatie en/of classificatie
- avatar ontwikkeling - strategieën bepalen om prioriteit te geven aan vormen op basis van een combinatie van overwegingen, zoals
- waar de tracker faalt
- wat de use cases van het eindproduct zijn
- wat esthetisch het mooist is
- wat semantisch het belangrijkst is
Met mijn achtergrond in expressiewetenschappen, gezichtsanatomie en uitgebreid werk met gezichtsgegevens, kan ik met een gerust hart zeggen dat onzuivere gegevens een groot probleem zijn bij het traceren van gezichten, niet een klein probleem. Kortom, zelfs als het algoritme perfect is, ontstaan er problemen door:
Onzuivere geposeerde gegevens
- Bij het verzamelen van geposeerde expressiegegevens van menselijke deelnemers zullen de gegevens altijd vervuild zijn. Gegarandeerd.
- De meeste mensen kunnen niet elke doeluitdrukking raken. Het is zeldzaam om gegevens over zuivere gezichtsacties te vinden. Als deelnemers onzuivere gezichtsuitdrukkingen uitvoeren, komt dat omdat ze de verkeerde gezichtsactie laten zien of omdat ze niet in staat zijn om de doeluitdrukking te isoleren zonder gebruik te maken van extra, niet-doelgezichtsspieren.
- Tot overmaat van ramp kunnen data-acquisiteurs vaak niet zeggen of de deelnemer wel de beoogde expressie bereikt. Dit gebrek aan kennis is niet de schuld van de data-acquisiteurs, maar eerder van de misplaatste prioriteiten van bedrijf X en het gebrek aan aandacht voor het aannemen of behouden van het juiste talent.
Slechte gegevenslabeling
- Door de hyperfocus op engineeringtalent verwaarlozen bedrijven meestal de prioriteit van datamarkeerfuncties. In plaats daarvan worden annotatie-inspanningen vaak behandeld als functies op laag niveau, bedoeld voor aannemers zonder specifieke expertise.
- Aannemers die beginnen met weinig ervaring kunnen uiteindelijk genoeg vertrouwd raken met de gegevens om een expertise te verwerven; dit gebeurt echter zelden, omdat labeling op contractbasis over het algemeen een groot verloop heeft.
Ongeïnformeerde kunstkeuzes
- Het is belangrijk dat de kunst de techniek begrijpt en dat de techniek de kunst begrijpt. Er is een onthutsende kloof tussen kunst en techniek binnen techbedrijven. In veel gevallen zien goede trackers er niet goed uit vanwege de trackers zelf, maar vanwege de artistieke keuzes die gemaakt zijn om onvolwassen techniek achter de schermen te bestrijden. Er zouden meer middelen moeten worden geïnvesteerd in het overbruggen van de kloof tussen kunst en techniek.
Terug naar Memoji & False Positive wenkbrauwen verlagen
Zoals aan het begin van deze post vermeld, is er telkens wanneer Memoji mijn glimlach probeert te weerspiegelen, een onnodige toevoeging van wenkbrauwverlaging in mijn binnenste wenkbrauwhoeken. Nogmaals, deze toevoeging blijft in verschillende soorten glimlachen.
De onderstaande grafiek is een voorbeeld van hoe de wisselwerking tussen gegevenskwaliteit en kunst verschillende uitdrukkingen op een negatieve manier kan beïnvloeden en problemen kan veroorzaken zoals het zakken van de wenkbrauwen bij glimlachen.
OPMERKING: Er kunnen natuurlijk meerdere mogelijke oorzaken zijn, waaronder problemen met het algoritme zelf; dit overzicht is echter gemaakt om een specifiek scenario met een specifieke reeks voorwaarden te benadrukken.
Afbreken
Neusrimpelaar en bovenlipverhoger zijn twee gezichtsacties die op elkaar lijken.
- Ze worden vaak met elkaar verward, zowel op het niveau van gegevensverzameling als op het niveau van gegevensetikettering.
- Omdat techbedrijven niet goed investeren in datakwaliteit, stimuleren ze meestal geen werknemers die nauwkeurig kunnen vaststellen of uitleggen hoe ze het verschil kunnen maken tussen neusrimpelaar en bovenlipverhoger.
- Fouten bij het verzamelen en labelen van gegevens worden niet opgemerkt en talent is niet in staat om fouten op te sporen.
Een veelgebruikte techniek in de kunst is het gebruik van bovenlipverhoger als een combo shape add-on voor glimlachen.
- Omdat de actie van de lipcorrectietrekker de bovenlip optilt wanneer er intens wordt geglimlacht, gaan veel mensen ervan uit dat deze beweging synoniem is aan lipverhoger. Zo eenvoudig is het niet.
- Veel kunstenaars gebruiken de bovenlipverhoger vorm om te combineren met lip hoektrekker om een sterke glimlach te creëren. Meer informatie vind je hier.
- Afgezien van esthetische en nauwkeurigheidsproblemen, blijft er een opvallend probleem: Als bovenlipverhoger is gekoppeld aan neusrimpel, wanneer een sterke glimlach wordt geïnitieerd, wordt deze geactiveerd lipverhoger, die dan neusrimpelaar. Daarom gaan de wenkbrauwen omlaag als iemand lacht. Slecht.
Er wordt niet genoeg aandacht besteed aan de kwaliteit van gegevens.
Kunst wordt niet genoeg gewaardeerd.
Het probleem oplossen
De eenvoudigste oplossing? Stap weg van FACS en leun op gezichtsanatomie. De eenvoudigste oplossing om vals positief browsen te verminderen is via neusrimpelaar en bovenlipverhoger is om de eigenschappen van de spieren achter deze acties in ere te houden.
Anatomisch gezien is de levator palpebrae superioris (bovenlipverhoger noch levator palpebrae superioris alaeque nasi (neusrimpelaar spier) verlaagt de wenkbrauwen. Alleen binnen de grenzen van de FACS gezichtscoderingsregels is het verlagen van de wenkbrauwen gekoppeld aan het rimpelen van de neus.
Je kunt jezelf hoofdpijn besparen als je het gewoon doet:
- herontwerp je labelregels om brow lowerer te classificeren als een aparte actie van neusrimpelaar
- herontwerp je blendshapes om een neusrimpelaar zonder inherente wenkbrauwverlaging