Зашто толико тракера за лице и аватара пате од лажно позитивног спуштања обрва? Користећи Apple-ов ARKit као студију случаја, ова анализа истражује корен проблема и на крају открива изненађујуће једноставно решење.
Аватарс и осмеси: Мемоји издање
Лажно-позитивне деформације обрва представљају широко распрострањен проблем у праћењу лица и анимацији аватара. Иако су суптилне, ове грешке могу искривити изразе аватара, уводећи нежељене наговештаје туге, беса или забринутости. У видео-снимку испод подвргавам Apple-ов Memoji стрес-тесту како бих демонстрирао овај проблем у пракси.
У горњем снимку посматрајте како мој Memoji “огледа” мој осмех. Примећујете ли нешто чудно или непријатно? Унутрашњи углови мојих обрва су погрешно спуштени. Додавање погрешно приписног спуштања обрва наставља се у различитим типовима осмеха. То се наставља и код других корисника.
Спуштене унутрашње обрве у комбинацији са подигнутим горњим уснама (узроковано гужавац на носу или подизач горње усне) се често повезује са непријатним емоцијама. Спуштени врхови обрва такође су негативно повезани са осмехом. Ове врсте семантички значајних грешака у праћењу могу ненамерно указивати на негативан став.
Како настају ове грешке
Лажно-позитивно спуштање обрва често произилази из проблема у квалитету података, грешака у означавању и уметничких избора. Ево зашто ти проблеми опстају:
- Нема довољно фокуса на квалитет података.
- Нема довољно фокуса на уметност.
Свуда где сам радио, било је толико бриге око запошљавања инжењера са специфичном позадином да број запослених се умањује на штету других суштинских улога.
Многи технички лидери претпостављају да ће се, ако прикупе довољно података за обуку свог модела, проблеми са квалитетом сами по себи решити. Вау! Магија. Ова претпоставка често почива на додатном (али лажном) уверењу да је удео нечистих података занемарљив.
Био сам дубоко у рововима података и радио скоро све неинжењерске улоге у праћењу лица:
- планирање података – одређивање које врсте података о експресији прикупити и како их прикупити
- прикупљање података – заправо радећи са учесницима и обучавајући их да заузму праве изражајне позе
- анотација података – одређивање најбољих начина за означавање оријентира
- класификација података – саветовање инжењеринга о томе које класе треба да постоје, који су им параметри и како да се поступа са њиховим неизбежним ивичним случајевима
- скалирање – осигуравање да су правила за анотацију и класификацију стандардизована и лака за разумевање масовним означивачима
- праћење – упоређивање референтних података са резултатима праћења
- идентификовање области за унапређење – утврђивање који проблеми постоје и како се могу побољшати кроз планирање, прикупљање, анотацију и/или класификацију
- развој аватара – осмишљавање приоритета облика на основу мешавине разматрања као што су –
- где тракер не успева
- који су случајеви употребе коначног производа
- шта ће бити најлепше
- шта је најзначајније са семантичког становишта
Са мојим искуством у науци о експресији, анатомији лица и обимном раду са подацима о лицу, могу са сигурношћу рећи да су нечисти подаци озбиљан проблем у праћењу лица, а не мањи. Укратко, чак и ако је алгоритам савршен, проблеми настају због:
Нечисти позиционирани подаци
- Када прикупљате податке о позама и изразима лица од људских учесника, подаци ће увек бити контаминирани. Гарантовано.
- Већина људи не може да изведе сваку циљну експресију. Ретко се налазе чисти подаци о покретима лица. Када учесници изводе нечисте експресије, то је зато што или показују погрешну акцију лица или нису у стању да изолују циљну експресију без коришћења додатних, не-циљних мишића лица.
- Да круну свега, прикупљачи података често не могу да утврде да ли учесник уопште погађа циљни израз. Овај недостатак знања није кривица прикупљача података, већ последица погрешно постављених приоритета компаније X и недостатка пажње при запошљавању и задржавању правог талента.
Лоше означавање података
- Због претераног фокуса на инжењерски таленат, компаније обично занемарују давање приоритета улогама за означавање података. Уместо тога, напори на анотацији често се третирају као нискоквалификоване позиције намењене извођачима без посебне стручности.
- Извођачи који почињу са мало искуства могу временом постати довољно уиграни са подацима да стекну стручност; међутим, то се ретко догађа, јер улогама означавања уговора обично прати висока флуктуација.
Неинформисани уметнички избори
- Важно је да уметност разуме технологију, а технологија да разуме уметност. Постоји запањујућа раздвојеност између уметности и инжењеринга у технолошким компанијама. У многим случајевима добри тракери изгледају добро не због самих тракера, већ због уметничких избора направљених да би се сузбила незрела технологија иза кулиса. Више ресурса треба уложити у премошћавање јаза између уметности и инжењеринга.
Повратак на Мемоджи и лажно позитивно спуштање обрва
Као што је поменуто на почетку овог поста, кад год Memoji покуша да огледа мој осмех, непотребно спушта обрве у унутрашњим угловима. Опет, овај додатак се јавља код различитих врста осмеха.
Дијаграм испод је пример како интеракција између квалитета података и уметности може негативно утицати на различите изразе и изазвати проблеме као што је спуштање обрва при осмеху.
НАПОМЕНА: Наравно, може постојати више потенцијалних узрока, укључујући проблеме са самим алгоритмом; међутим, овај преглед је направљен да истакне специфичан сценарио са одређеним скупом услова.
Разумевање
Скупивач носа и подизач горње усне Постоје два покрета лица која изгледају слично.
- Често се међусобно мешају и на нивоу прикупљања података и на нивоу означавања података.
- Пошто технолошке компаније не улажу довољно у квалитет података, обично не негују запослене који могу прецизно да идентификују или објасне како да разликују гужавац на носу и подизач горње усне.
- Грешке и при прикупљању и при означавању података пролазе незапажено, а таленти не могу да уоче грешке у праћењу.
Уобичајена техника у уметности је коришћење подизач горње усне као додатак комбо облику за осмехе.
- Пошто дејство подизача угла усне подиже горњу усну када је осмех интензиван, многи претпостављају да је овај покрет синоним за дизач горње усне. Није баш тако једноставно.
- Многи уметници користе подизач горње усне облик за комбиновање са вучач угла усне да створи снажан осмех. Више детаља овде.
- Оставимо по страни естетска и питања тачности, остаје један очигледан проблем: Ако подизач горње усне је везан за гужавац, када се покрене снажан осмех, он ће се активирати подизач горње усне, који ће се затим активирати гужавац на носу. Стога, када неко насмеши, обрве ће му се спустити. Лоше.
Не посвећује се довољно пажње квалитету података.
Уметности се не придаје довољно заслуга.
Решавање проблема
Најједноставније решење? Одмакните се од FACS и ослоните се на анатомију лица. Најлакше решење за смањење лажно позитивних спуштања обрва путем гужавац на носу и подизач горње усне је да се поштују својства мишића који стоје иза ових радњи.
Са анатомског становишта, ни мишић који подиже горњи капак (подизач горње усне мишић) ни леватор палпебрае супериорis и аеque наси (гужавац на носу мишић) спушта обрве. Само у оквиру правила FACS кодирања лица спуштање обрва је повезано са гужвањем носа.
Можете се поштедети главобоље ако једноставно:
- предизајнирајте своја правила за означавање да бисте класификовали покрет подизања обрва као засебну акцију од гужавац на носу
- предизајнирајте своје блендшејпове да угосте гужавац на носу без урођеног спуштања обрва