Por qué tantos rastreadores faciales y avatares sufren falsos positivos en el descenso de cejas? Usando ARKit de Apple como caso de estudio, este análisis explora la raíz del problema y revela una solución sorprendentemente sencilla al final.
Avatares y sonrisas: Edición Memoji
Los falsos positivos en el descenso de las cejas son un problema muy extendido en el seguimiento facial y la animación de avatares. Aunque sutiles, estos errores pueden distorsionar las expresiones de un avatar, introduciendo señales involuntarias de tristeza, enfado o preocupación. En el siguiente vídeo, pruebo el Memoji de Apple para demostrar este problema en acción.
En el vídeo de arriba, observa cómo mi Memoji "refleja" mi sonrisa. ¿Notas algo extraño o desagradable? Las esquinas interiores de mis cejas están erróneamente bajadas. La adición de bajar erróneamente las cejas persiste en varios tipos de sonrisas. También persiste en otros usuarios.
Unas cejas interiores bajas junto con un labio superior elevado (causado por arruga la nariz o elevador del labio superior) se asocia a menudo con emociones desagradables. Las puntas de las cejas bajas también se correlacionan negativamente con la sonrisa. Este tipo de errores de rastreo semánticamente significativos pueden implicar involuntariamente un sentimiento negativo.
Cómo se producen estos errores
Los falsos positivos en la reducción de cejas suelen deberse a problemas en la calidad de los datos, errores de etiquetado y elecciones artísticas. A continuación se explica por qué persisten estos problemas:
- No se presta suficiente atención a la calidad de los datos.
- No se presta suficiente atención al arte.
En todos los lugares en los que he trabajado, ha habido tanta preocupación por contratar ingenieros con una formación específica que se detrae personal de otras funciones esenciales.
Muchos líderes tecnológicos suponen que si adquieren suficientes datos para entrenar su modelo, los problemas de calidad se resolverán por sí solos. ¡Vaya! Mágico. Esta suposición a menudo opera bajo la creencia adicional (pero falsa) de que sólo hay un porcentaje insignificante de datos impuros.
He estado en las trincheras de los datos y he desempeñado casi todas las funciones no relacionadas con la ingeniería en el seguimiento facial:
- planificación de datos - determinar qué tipo de datos de expresión recoger y cómo hacerlo
- recogida de datos - trabajar realmente con los participantes y entrenarlos para que adopten las posturas de expresión adecuadas
- anotación de datos - determinar la mejor forma de etiquetar los puntos de referencia
- clasificación de datos - Asesorar a los ingenieros sobre qué clases deben existir, cuáles son sus parámetros y cómo tratar sus inevitables casos extremos.
- ampliación - Garantizar que las normas de anotación y clasificación estén normalizadas y sean fáciles de entender para los etiquetadores a gran escala.
- seguimiento - comparación de la verdad sobre el terreno con los resultados del seguimiento
- identificar las áreas de mejora - averiguar qué problemas existen y cómo pueden mejorarse mediante la planificación, recopilación, anotación y/o clasificación
- desarrollo de avatares - la estrategia de qué formas priorizar basándose en una mezcla de consideraciones como -.
- donde falla el rastreador
- cuáles son los casos de uso del producto final
- lo que será más agradable estéticamente
- lo más importante desde el punto de vista semántico
Gracias a mi experiencia en la ciencia de la expresión, la anatomía facial y un amplio trabajo con datos faciales, puedo afirmar sin temor a equivocarme que la impureza de los datos es uno de los principales problemas del seguimiento facial, no uno de los menores. En resumen, aunque el algoritmo sea perfecto, surgen problemas por:
Datos planteados impuros
- Cuando se recopilan datos de expresión poseídos de participantes humanos, los datos siempre estarán contaminados. Garantizado.
- La mayoría de la gente no puede acertar todas las expresiones objetivo. Es raro encontrar datos de acciones faciales puras. Cuando los participantes realizan expresiones impuras, es porque están mostrando la acción facial incorrecta o porque son incapaces de aislar la expresión objetivo sin emplear músculos faciales adicionales no objetivo.
- Para colmo, los especialistas en adquisición de datos a menudo ni siquiera saben si el participante está alcanzando la expresión deseada. Esta falta de conocimiento no es culpa de los especialistas en adquisición de datos, sino más bien de las prioridades equivocadas de la empresa X y de su falta de atención a la hora de contratar o mantener el talento adecuado.
Mal etiquetado de los datos
- Debido a un hiperenfoque en el talento de ingeniería, las empresas suelen descuidar la priorización de las funciones de etiquetado de datos. En su lugar, los esfuerzos de anotación se tratan a menudo como puestos de bajo nivel designados para contratistas sin experiencia particular.
- Los contratistas que empiezan con poca experiencia pueden llegar a sintonizar lo suficiente con los datos como para adquirir experiencia; sin embargo, esto rara vez ocurre, porque las funciones de etiquetado por contrato suelen tener una alta rotación.
Elecciones artísticas desinformadas
- Es importante que el arte entienda la tecnología y que la tecnología entienda el arte. Existe una asombrosa desconexión entre el arte y la ingeniería en las empresas tecnológicas. En muchos casos, los buenos rastreadores no parecen buenos por los rastreadores en sí, sino por las decisiones artísticas tomadas para combatir una tecnología inmadura entre bastidores. Deberían invertirse más recursos en salvar la brecha entre arte e ingeniería.
Volver a Memoji y falsos positivos Bajada de cejas
Como se mencionó al principio de este post, cada vez que Memoji intenta reflejar mi sonrisa, hay una adición innecesaria de descenso de la ceja en las esquinas interiores de mi frente. De nuevo, esta adición persiste en varios tipos de sonrisas.
El gráfico siguiente es un ejemplo de cómo la interacción entre la calidad de los datos y el arte puede afectar negativamente a varias expresiones y provocar problemas como el descenso de las cejas al sonreír.
NOTA: Por supuesto, puede haber múltiples causas potenciales, incluyendo problemas con el propio algoritmo; sin embargo, este esquema se hace para resaltar un escenario específico con un conjunto específico de condiciones.
Desglose
Arruga la nariz y eleva el labio superior son dos acciones faciales que se parecen.
- A menudo se confunden entre sí, tanto a nivel de recogida de datos como de etiquetado de los mismos.
- Debido a que las empresas tecnológicas no invierten adecuadamente en la calidad de los datos, no suelen fomentar empleados que puedan identificar con precisión o explicar cómo diferenciar arruga la nariz y elevador del labio superior.
- Los errores tanto en la recogida como en el etiquetado de los datos pasan desapercibidos, y el talento es incapaz de detectar los errores de seguimiento.
Una técnica habitual en el arte es utilizar elevador del labio superior como complemento de la forma combinada para las sonrisas.
- Dado que la acción del tiralabios levanta el labio superior cuando la sonrisa es intensa, muchos asumen que este movimiento es sinónimo de levantamiento del labio superior. No es tan sencillo.
- Muchos artistas utilizan el elevador del labio superior forma para combinar con tiralabios para crear una sonrisa fuerte. Más información aquí.
- Aparte de las cuestiones estéticas y de precisión, sigue habiendo un problema evidente: Si elevador del labio superior está vinculada a arruga la nariz, cuando se inicie una sonrisa fuerte, activará levantamiento del labio superior, que activará arruga la nariz. Por lo tanto, cuando alguien sonríe, sus cejas bajarán. Malo.
No se presta suficiente atención a la calidad de los datos.
No se da suficiente crédito al arte.
Solucionar el problema
¿La solución más sencilla? Aléjese de la FACS y apóyese en la anatomía facial. La solución más sencilla para reducir los falsos positivos es reducir las cejas mediante arruga la nariz y elevador del labio superior es honrar las propiedades de los músculos que están detrás de estas acciones.
Desde un punto de vista anatómico, ni el levator palpebrae superioris (elevador del labio superior ) ni el levator palpebrae superioris alaeque nasi (arruga la nariz ) baja las cejas. Sólo dentro de los límites de las reglas de codificación facial FACS, el descenso de las cejas está vinculado a la arruga de la nariz.
Puede ahorrarse un dolor de cabeza si simplemente:
- rediseñar sus reglas de etiquetado para clasificar la bajada de cejas como una acción separada de la arruga la nariz
- rediseñar sus blendshapes para albergar un arruga la nariz sin bajada de cejas inherente