Чому так багато трекерів обличчя та аватарів страждають від хибнопозитивного спрацьовування при опусканні брів? Використовуючи ARKit від Apple як приклад, ми досліджуємо корінь проблеми і наприкінці показуємо напрочуд просте рішення.
Аватарки та смайлики: Memoji Edition
Хибнопозитивне опускання брів є поширеною проблемою при відстеженні обличчя та анімації аватарів. Хоча ці помилки малопомітні, вони можуть спотворювати вираз обличчя аватара, додаючи небажані ознаки смутку, гніву чи занепокоєння. У відео нижче я проводжу стрес-тестування Memoji від Apple, щоб продемонструвати цю проблему в дії.
У кліпі вище подивіться, як мій Memoji "віддзеркалює" мою посмішку. Помітили щось дивне або неприємне? Мої внутрішні куточки брів помилково опущені. Помилково опущені куточки брів з'являються в різних типах посмішок. Це спостерігається і в інших користувачів.
Опущені внутрішні брови в поєднанні з піднятою верхньою губою (спричинені зморщувач для носа або підйомник верхньої губи) часто асоціюється з неприємними емоціями. Опущені кінчики брів також негативно корелюють з усмішкою. Ці типи семантично значущих помилок відстеження можуть ненавмисно натякати на негативні емоції.
Як виникають ці помилки
Хибнопозитивне опускання брів часто виникає через проблеми з якістю даних, помилки в маркуванні та художній вибір. Ось чому ці проблеми існують:
- Недостатньо уваги приділяється якості даних.
- Недостатньо уваги приділяється мистецтву.
Скрізь, де я працював, було стільки занепокоєння з приводу найму інженерів з певним досвідом, що чисельність персоналу відволікає від інших важливих функцій.
Багато технічних лідерів вважають, що якщо вони отримають достатньо даних для навчання своєї моделі, проблеми з якістю просто вирішаться самі собою. Ого! Магія. Це припущення часто підкріплюється додатковим (але хибним) переконанням, що існує лише незначний відсоток неякісних даних.
Я був глибоко в окопах даних і працював майже на всіх неінженерних посадах у сфері відстеження облич:
- планування даних - визначення типу даних про вирази та способу їх збору
- збір даних - фактична робота з учасниками та навчання їх правильним позам для вираження експресії
- анотація даних - визначення найкращих способів маркування пам'яток
- класифікація даних - консультування інженерів щодо того, які класи повинні існувати, якими мають бути їхні параметри та як поводитися з неминучими граничними випадками
- масштабування - забезпечення того, щоб правила анотації та класифікації були стандартизованими та зрозумілими для масових виробників етикеток
- моніторинг відстеження - порівняння первинної інформації з результатами відстеження
- визначення сфер для вдосконалення - з'ясування того, які проблеми існують і як їх можна вирішити за допомогою планування, збору, анотування та/або класифікації
- розробка аватарів - визначення стратегії, яким формам надати пріоритет, виходячи з комплексу міркувань, таких як
- коли трекер не працює
- які сценарії використання кінцевого продукту
- що буде найбільш естетично привабливим
- що є найбільш семантично важливим
Маючи досвід роботи з мімікою, анатомією обличчя та великий досвід роботи з даними про обличчя, я можу з упевненістю сказати, що нечисті дані є основною проблемою у відстеженні облич, а не другорядною. Коротше кажучи, навіть якщо алгоритм ідеальний, проблеми виникають:
Нечисті позиціоновані дані
- Під час збору даних про поставлене висловлювання від людей-учасників дані завжди будуть забруднені. Це гарантовано.
- Більшість людей не можуть влучити в кожну цільову міміку. Рідко можна знайти дані про чисту міміку. Коли учасники відтворюють нечіткі вирази обличчя, це відбувається тому, що вони або демонструють неправильну мімічну дію, або тому, що вони не можуть виділити цільовий вираз, не використовуючи додаткові, нецільові м'язи обличчя.
- На додачу до всього, фахівці зі збору даних часто не можуть сказати, чи влучив учасник у цільовий вираз. У цьому браку знань винні не фахівці зі збору даних, а радше компанія X, яка неправильно розставила пріоритети і не приділяє належної уваги найму та утриманню потрібних талантів.
Погане маркування даних
- Через надмірний фокус на інженерних талантах компанії зазвичай нехтують пріоритетністю ролі маркування даних. Натомість до роботи над анотаціями часто ставляться як до низькорівневих посад, призначених для підрядників, які не мають спеціальних знань.
- Підрядники, які починають працювати з невеликим досвідом, можуть з часом освоїти дані настільки, що стануть експертами; однак це трапляється рідко, оскільки контрактні ролі з маркування зазвичай мають високу плинність кадрів.
Неусвідомлений вибір мистецтва
- Важливо, щоб мистецтво розуміло технології, а технології розуміли мистецтво. У технологічних компаніях існує приголомшливий розрив між мистецтвом та інженерією. У багатьох випадках хороші трекери виглядають добре не завдяки самим трекерам, а завдяки мистецькому вибору, зробленому для боротьби з незрілими технологіями за лаштунками. Слід інвестувати більше ресурсів у подолання розриву між мистецтвом та інженерією.
Повернутись до Memoji та хибнопозитивних спрацьовувань на опускання брів
Як згадувалося на початку цієї статті, щоразу, коли Memoji намагається віддзеркалити мою посмішку, з'являється непотрібне доповнення у вигляді опускання брів у внутрішніх куточках брів. Знову ж таки, це додавання зберігається в різних типах посмішок.
Наведена нижче діаграма є прикладом того, як взаємодія між якістю даних і мистецтвом може негативно впливати на різні форми самовираження і спричиняти такі проблеми, як опускання брів під час посмішки.
ПРИМІТКА: Звичайно, може бути багато потенційних причин, включаючи проблеми з самим алгоритмом; однак, ця схема зроблена для того, щоб висвітлити конкретний сценарій з певним набором умов.
Розбиваючи його на частини
Згладжувач зморшок на носі та підйомник верхньої губи це дві мімічні дії, які виглядають схожими.
- Їх часто плутають між собою як на рівні збору даних, так і на рівні маркування даних.
- Оскільки технологічні компанії не інвестують належним чином у якість даних, вони зазвичай не виховують працівників, які можуть точно ідентифікувати або пояснити, як диференціювати зморщувач для носа і підйомник верхньої губи.
- Помилки як у зборі даних, так і в їх маркуванні залишаються непоміченими, а талант не здатен вловити помилки у відстеженні.
Поширеним прийомом у мистецтві є використання підйомник верхньої губи як доповнення до комбінованої форми для посмішок.
- Оскільки під час інтенсивної посмішки куточок губи піднімається, багато хто вважає, що цей рух є синонімом підтяжка верхньої губи. Не все так просто.
- Багато художників використовують підйомник верхньої губи форма, з якою можна поєднувати знімач кута губи для створення сильної посмішки. Більше деталей тут.
- Якщо не брати до уваги питання естетики та точності, залишається кричуща проблема: Якщо підйомник верхньої губи пов'язана з зморшкуватий ніс, коли ініціюється сильна посмішка, вона активується підтяжка верхньої губи, який потім активується зморщувач для носа. Тому, коли хтось посміхається, його брови опускаються. Погано.
Недостатньо уваги приділяється якості даних.
Мистецтву приділяється недостатньо уваги.
Вирішення проблеми
Найпростіше рішення? Відійдіть від FACS і спирайтеся на анатомію обличчя. Найпростіше рішення для зменшення хибнопозитивних спрацьовувань на опускання брів за допомогою зморщувач для носа і підйомник верхньої губи це вшанування властивостей м'язів, що стоять за цими діями.
З анатомічної точки зору, ні levator palpebrae superioris (підйомник верхньої губи ні levator palpebrae superioris alaeque nasi (зморщувач для носа м'яз) опускає брови. Лише в рамках правил кодування обличчя FACS опускання брів пов'язане зі зморщуванням носа.
Ви можете позбавити себе головного болю, якщо просто:
- перегляньте свої правила маркування, щоб класифікувати опускання брів як окрему дію від зморщувач для носа
- переробіть свої бленд-форми, щоб розмістити на них зморщувач для носа без притаманного опускання брів