Por qué tantos rastreadores faciales y avatares sufren falsos positivos en el descenso de cejas? Usando ARKit de Apple como caso de estudio, este análisis explora la raíz del problema y revela una solución sorprendentemente sencilla al final.
Avatares y sonrisas: Edición Memoji
Los falsos positivos en el descenso de las cejas son un problema muy extendido en el seguimiento facial y la animación de avatares. Aunque sutiles, estos errores pueden distorsionar las expresiones de un avatar, introduciendo señales involuntarias de tristeza, enfado o preocupación. En el siguiente vídeo, pruebo el Memoji de Apple para demostrar este problema en acción.
En el vídeo de arriba, observa cómo mi Memoji "refleja" mi sonrisa. ¿Notas algo extraño o desagradable? Las esquinas interiores de mis cejas están erróneamente bajadas. La adición de bajar erróneamente las cejas persiste en varios tipos de sonrisas. También persiste en otros usuarios.
Cejas internas bajas junto con un labio superior levantado (causado por arrugador de la nariz o levantamiento del labio superior) se asocia a menudo con emociones desagradables. Las puntas de las cejas bajas también se correlacionan negativamente con la sonrisa. Este tipo de errores de rastreo semánticamente significativos pueden implicar involuntariamente un sentimiento negativo.
Cómo se producen estos errores
Los falsos positivos en la reducción de cejas suelen deberse a problemas en la calidad de los datos, errores de etiquetado y elecciones artísticas. A continuación se explica por qué persisten estos problemas:
- No se presta suficiente atención a la calidad de los datos.
- No se presta suficiente atención al arte.
En todos los lugares donde he trabajado, ha habido tanta preocupación por contratar ingenieros con un historial específico que el recuento de personal se retira de otras funciones esenciales.
Muchos líderes tecnológicos suponen que si adquieren suficientes datos para entrenar su modelo, los problemas de calidad se resolverán por sí solos. ¡Vaya! Mágico. Esta suposición a menudo opera bajo la creencia adicional (pero falsa) de que sólo hay un porcentaje insignificante de datos impuros.
He estado en las trincheras de los datos y he desempeñado casi todas las funciones no relacionadas con la ingeniería en el seguimiento facial:
- planificación de datos - determinar qué tipo de expresión de datos se debe recoger y cómo hacerlo
- recopilación de datos - trabajando realmente con los participantes y entrenándolos para que alcancen las posturas de expresión correctas
- anotación de datos - determinar la mejor manera de etiquetar los puntos de referencia
- clasificación de datos - aconsejando a la ingeniería sobre qué clases deberían existir, cuáles son sus parámetros, y cómo manejar sus inevitables casos límite
- escalando... - Asegurarse de que las reglas de anotación y clasificación estén normalizadas y sean fáciles de comprender por los etiquetadores a escala masiva.
- seguimiento de la monitorización - comparando la verdad del terreno con los resultados del seguimiento
- identificar las áreas que deben mejorarse - averiguar qué problemas existen y cómo se pueden mejorar mediante la planificación, la recopilación, la anotación y/o la clasificación
- desarrollo de avatares - Estrategias que forman para priorizar en base a una mezcla de consideraciones tales como
- donde el rastreador falla
- cuáles son los casos de uso del producto final
- lo que será más estéticamente agradable
- lo que es más importante semánticamente
Gracias a mi experiencia en la ciencia de la expresión, la anatomía facial y un amplio trabajo con datos faciales, puedo afirmar sin temor a equivocarme que la impureza de los datos es uno de los principales problemas del seguimiento facial, no uno de los menores. En resumen, aunque el algoritmo sea perfecto, surgen problemas por:
Datos planteados impuros
- Cuando se recogen datos de expresión planteada de participantes humanos, los datos siempre estarán contaminados. Garantizado.
- La mayoría de la gente no puede alcanzar cada expresión del objetivo. Es raro encontrar datos de acción facial pura. Cuando los participantes realizan expresiones impuras, es porque están mostrando la acción facial equivocada o porque son incapaces de aislar la expresión objetivo sin emplear músculos faciales adicionales no objetivo.
- Para colmo, los especialistas en adquisición de datos a menudo ni siquiera saben si el participante está alcanzando la expresión deseada. Esta falta de conocimiento no es culpa de los especialistas en adquisición de datos, sino más bien de las prioridades equivocadas de la empresa X y de su falta de atención a la hora de contratar o mantener el talento adecuado.
Mal etiquetado de los datos
- Debido a un hiperenfoque en el talento de ingeniería, las empresas suelen descuidar la priorización de las funciones de etiquetado de datos. En su lugar, los esfuerzos de anotación se tratan a menudo como puestos de bajo nivel designados para contratistas sin experiencia particular.
- Los contratistas que empiezan con poca experiencia pueden llegar a sintonizar lo suficiente con los datos como para adquirir experiencia; sin embargo, esto rara vez ocurre, porque las funciones de etiquetado por contrato suelen tener una alta rotación.
Elecciones artísticas desinformadas
- Es importante que el arte entienda la tecnología y que la tecnología entienda el arte. Existe una asombrosa desconexión entre el arte y la ingeniería en las empresas tecnológicas. En muchos casos, los buenos rastreadores no parecen buenos por los rastreadores en sí, sino por las decisiones artísticas tomadas para combatir una tecnología inmadura entre bastidores. Deberían invertirse más recursos en salvar la brecha entre arte e ingeniería.
Volver a Memoji y falsos positivos Bajada de cejas
Como se mencionó al principio de este post, cada vez que Memoji intenta reflejar mi sonrisa, hay una adición innecesaria de descenso de la ceja en las esquinas interiores de mi frente. De nuevo, esta adición persiste en varios tipos de sonrisas.
El gráfico siguiente es un ejemplo de cómo la interacción entre la calidad de los datos y el arte puede afectar negativamente a diversas expresiones y provocar problemas como el descenso de las cejas al sonreír.
NOTA: Por supuesto, puede haber múltiples causas potenciales, incluyendo problemas con el propio algoritmo; sin embargo, este esquema se hace para resaltar un escenario específico con un conjunto específico de condiciones.
Desglose
Arrugador de nariz y levantador de labio superior son dos acciones faciales que se parecen.
- A menudo se confunden entre sí tanto a nivel de recopilación de datos como a nivel de etiquetado de datos.
- Debido a que las empresas tecnológicas no invierten adecuadamente en la calidad de los datos, no suelen fomentar empleados que puedan identificar con precisión o explicar cómo diferenciar arrugador de la nariz y levantamiento del labio superior.
- Los errores tanto en la recolección como en el etiquetado de los datos pasan desapercibidos, y el talento es incapaz de detectar los errores de seguimiento.
Una técnica común en el arte es utilizar levantamiento del labio superior como complemento de la forma combinada para las sonrisas.
- Debido a que la acción del tirador de la esquina del labio levanta el labio superior cuando una sonrisa es intensa, muchos asumen que este movimiento es sinónimo de ...para levantar el labio superior. No es tan sencillo.
- Muchos artistas usan el levantamiento del labio superior forma para combinar con tirador de la esquina del labio para crear una fuerte sonrisa. Más detalles aquí.
- Aparte de las cuestiones estéticas y de precisión, sigue habiendo un problema evidente: Si levantamiento del labio superior está vinculada a arruga la nariz, cuando se inicie una sonrisa fuerte, activará ...para levantar el labio superior, que activará arrugador de la nariz. Por lo tanto, cuando alguien sonríe, sus cejas bajarán. Malo.
No se presta suficiente atención a la calidad de los datos.
No se le da suficiente crédito al arte.
Solucionar el problema
¿La solución más sencilla? Aléjese de la FACS y apóyese en la anatomía facial. La solución más sencilla para reducir los falsos positivos es reducir las cejas mediante arrugador de la nariz y levantamiento del labio superior es honrar las propiedades de los músculos que están detrás de estas acciones.
Desde un punto de vista anatómico, ni el levator palpebrae superioris (levantamiento del labio superior ) ni el levator palpebrae superioris alaeque nasi (arrugador de la nariz ) baja las cejas. Sólo dentro de los límites de las normas de codificación facial FACS, el descenso de las cejas está vinculado a la arruga de la nariz.
Puede ahorrarse un dolor de cabeza si simplemente:
- rediseñar sus reglas de etiquetado para clasificar la bajada de cejas como una acción separada de la arrugador de la nariz
- rediseñar sus blendshapes para albergar un arrugador de la nariz sin bajada de cejas inherente