Почему так много устройств для отслеживания лиц и аватаров страдают от ложноположительного опускания бровей? На примере ARKit от Apple мы исследуем корень проблемы и в конце обнаружим удивительно простое решение.
Аватары и улыбки: Memoji Edition
Ложноположительное опускание бровей - широко распространенная проблема при отслеживании лиц и анимации аватаров. Хотя эти ошибки малозаметны, они могут искажать выражение лица аватара, создавая нежелательные сигналы грусти, гнева или беспокойства. В видеоролике ниже я провожу стресс-тест Memoji от Apple, чтобы продемонстрировать эту проблему в действии.
В ролике выше обратите внимание на то, как мой Memoji "отражает" мою улыбку. Заметили что-нибудь странное или неприятное? Мои внутренние уголки бровей ошибочно опущены. Добавление ошибочного опускания бровей сохраняется в различных типах улыбок. Оно сохраняется и у других пользователей.
Ослабленные внутренние брови в сочетании с приподнятой верхней губой (вызванные носовой морщинок или райзер верхней губы) часто ассоциируется с неприятными эмоциями. Опущенные кончики бровей также отрицательно коррелируют с улыбкой. Подобные семантически значимые ошибки отслеживания могут непреднамеренно вызывать негативные чувства.
Как возникают эти ошибки
Ложноположительное снижение бровей часто связано с проблемами качества данных, ошибками в маркировке и художественным выбором. Вот почему эти проблемы сохраняются:
- Недостаточно внимания уделяется качеству данных.
- Недостаточно внимания уделяется искусству.
Везде, где я работал, было так много забот о найме инженеров с определенным опытом, что Списочная численность отнимается у других важных ролей.
Многие технологические лидеры полагают, что если они получат достаточно данных для обучения своей модели, то проблемы с качеством просто решатся сами собой. Вот это да! Магия. Это предположение часто основывается на дополнительной (но ложной) вере в то, что существует лишь незначительный процент нечистых данных.
Я был глубоко в траншеях данных и работал почти на всех должностях, не связанных с инженерией, в области отслеживания лиц:
- планирование данных - определение того, какие данные по выражениям необходимо собирать и как их собирать
- совокупность данных - реально работая с участниками и обучая их ударять по правильным позам самовыражения
- аннотация данных - определение наилучших способов маркировки памятников
- классификация данных - консультирование инженера по вопросам о том, какие классы должны существовать, каковы их параметры и как справляться с неизбежными крайними случаями.
- увеличение масштаба - обеспечение того, чтобы правила аннотирования и классификации были стандартизированы и легко понимались массовыми маркировщиками.
- мониторинговое отслеживание - сравнение истины на местах с результатами отслеживания
- выявление областей, нуждающихся в улучшении - выяснение, какие проблемы существуют и как их можно улучшить с помощью планирования, сбора, аннотации и/или классификации
- развитие аватар - разработка стратегии, которая формирует приоритеты на основе сочетания таких соображений, как -
- когда трекер выходит из строя
- случаи использования конечного продукта
- что будет наиболее эстетически приятно
- наиболее семантически важный
Благодаря моему опыту в области науки о выражении лица, анатомии лица и обширной работе с данными о лице, я могу с уверенностью сказать, что нечистые данные - это не второстепенная, а главная проблема в отслеживании лиц. Короче говоря, даже если алгоритм совершенен, проблемы возникают из-за:
Нечистые наложенные данные
- При сборе данных, полученных от человеческих участников, эти данные всегда будут заражены. Гарантировано.
- Большинство людей не могут поразить каждую цель. Редко можно найти чистые данные о воздействии на лицо. Когда участники выполняют нечистые выражения, это происходит либо потому, что они отображают неправильное действие на лице, либо потому, что они не могут изолировать целевое выражение без использования дополнительных, нецелевых мышц лица.
- Ко всему прочему, специалисты по сбору данных часто не могут определить, попадает ли участник в целевое выражение. В этом недостатке знаний виноваты не специалисты по сбору данных, а, скорее, неправильно расставленные приоритеты компании X и недостаточное внимание к найму и удержанию нужных специалистов.
Плохая маркировка данных
- Из-за повышенного внимания к инженерным кадрам компании обычно пренебрегают приоритетными ролями в области маркировки данных. Вместо этого к работе по аннотированию часто относятся как к низкоуровневым должностям, предназначенным для подрядчиков, не обладающих особым опытом.
- Подрядчики, начинающие работу с небольшим опытом, со временем могут достаточно хорошо ориентироваться в данных, чтобы приобрести экспертные знания; однако это случается редко, так как роли контрактных маркировщиков обычно характеризуются высокой текучестью кадров.
Неосознанный выбор искусства
- Важно, чтобы искусство понимало технологию, а технология понимала искусство. В технологических компаниях существует поразительное несоответствие между искусством и техникой. Во многих случаях хорошие трекеры выглядят хорошо не из-за самих трекеров, а из-за художественного выбора, сделанного для борьбы с незрелыми технологиями за кулисами. Необходимо вкладывать больше ресурсов в преодоление разрыва между искусством и инженерией.
Назад к Мемодзи и ложноположительное опускание бровей
Как уже упоминалось в начале этого поста, всякий раз, когда Memoji пытается отразить мою улыбку, во внутренних уголках бровей появляется ненужное дополнение в виде опускания бровей. И опять же, это добавление сохраняется в разных типах улыбок.
Приведенный ниже график является примером того, как взаимодействие между качеством данных и искусством может негативно повлиять на различные выражения и вызвать такие проблемы, как опускание бровей при улыбке.
ПРИМЕЧАНИЕ: Конечно, потенциальных причин может быть множество, включая проблемы с самим алгоритмом; однако данный обзор составлен для того, чтобы выделить конкретный сценарий с определенным набором условий.
Разбиение на части
Морщилка для носа и устройство для измельчения верхних губ это два действия на лице, которые выглядят похожими.
- Их часто путают друг с другом как на уровне сбора данных, так и на уровне маркировки данных.
- Поскольку технологические компании не вкладывают должных средств в качество данных, они, как правило, не готовят сотрудников, которые могут точно определить или объяснить, как отличить носовой морщинок и райзер верхней губы.
- Ошибки как в сборе данных, так и в маркировке данных остаются незамеченными, и талантливые люди не могут поймать ошибки в отслеживании.
Распространенный прием в искусстве - использование райзер верхней губы как дополнение к комбинированной форме для улыбок.
- Поскольку при интенсивной улыбке действие съемника угла губы приподнимает верхнюю губу, многие считают это движение синонимом верхняя губная рама. Все не так просто.
- Многие художники используют райзер верхней губы в сочетании с съёмник угла губы чтобы создать сильную улыбку. Подробности здесь.
- Если отбросить вопросы эстетики и точности, то остается одна проблема: Если райзер верхней губы связан с морщит нос, при появлении сильной улыбки активируется верхняя губная рама, который затем активирует носовой морщинок. Поэтому, когда кто-то улыбается, его брови опускаются. Плохо.
Недостаточное внимание уделяется качеству данных.
Недостаточно внимания уделяется искусству.
Устранение проблемы
Самое простое решение? Отойдите от FACS и опирайтесь на анатомию лица. Самое простое решение для снижения количества ложных срабатываний - это носовой морщинок и райзер верхней губы это уважать свойства мышц, которые стоят за этими действиями.
С анатомической точки зрения ни levator palpebrae superioris (райзер верхней губы мышца), ни levator palpebrae superioris alaeque nasi (носовой морщинок мышца) опускает брови. Только в рамках правил кодирования лица FACS опускание бровей связано со сморщиванием носа.
Вы можете избавить себя от головной боли, если просто:
- Переработайте правила маркировки, чтобы классифицировать средство для опускания бровей как отдельное действие от носовой морщинок
- переделайте свои блендшейпы, чтобы разместить в них носовой морщинок без присущего им опущения бровей