ARKit y otros errores de seguimiento de la cara

Este post es un seguimiento de los videos que he estado haciendo para evaluar la calidad de varios kits de rastreo. Aquí, profundizo en un tema en particular que he estado viendo en Animoji.

sonríe en Animoji

En el video de abajo, mira cómo Animoji refleja mi sonrisa. Hay una adición innecesaria de bajar las cejas en las esquinas interiores de mis cejas. Esta adición persiste en varios tipos de sonrisas tanto auténticas como inauténticas. También persiste en otros usuarios.

Cejas internas bajas junto con un labio superior levantado (causado por arrugador de la nariz o levantamiento del labio superior) se asocia a menudo con el asco. Además, el descenso de la ceja está negativamente correlacionado con la sonrisa. Estos tipos de errores de seguimiento semánticamente significativos retratan involuntariamente un sentimiento negativo.

 

cómo se producen estos errores

  1. Demasiada atención a la ingeniería. No se centra lo suficiente en la calidad de los datos.
  2.  Demasiada atención a la ingeniería. No lo suficiente en el arte.

En todos los lugares donde he trabajado, ha habido tanta preocupación por contratar ingenieros con un historial específico que el recuento de personal se retira de otras funciones esenciales.

Muchos de los líderes tecnológicos viven bajo la suposición de que si adquieren suficientes datos para entrenar su modelo, los problemas de calidad simplemente se resolverán por sí mismos. ¡Vaya! Mágico. Esta suposición a menudo opera bajo una suposición adicional (pero falsa): Sólo hay un porcentaje insignificante de datos impuros.

He estado en lo profundo de las trincheras de datos y he trabajado casi todos los papeles no relacionados con la ingeniería en el rastreo de rostros:

  • planificación de datos - determinar qué tipo de expresión de datos se debe recoger y cómo hacerlo
  • recopilación de datos - trabajando realmente con los participantes y entrenándolos para que alcancen las posturas de expresión correctas
  • anotación de datos - determinar la mejor manera de etiquetar los puntos de referencia
  • clasificación de datos - aconsejando a la ingeniería sobre qué clases deberían existir, cuáles son sus parámetros, y cómo manejar sus inevitables casos límite
  • escalando... - Asegurarse de que las reglas de anotación y clasificación estén normalizadas y sean fáciles de comprender por los etiquetadores a escala masiva.
  • seguimiento de la monitorización - comparando la verdad del terreno con los resultados del seguimiento
  • identificar las áreas que deben mejorarse - averiguar qué problemas existen y cómo se pueden mejorar mediante la planificación, la recopilación, la anotación y/o la clasificación
  • desarrollo de avatares - Estrategias que forman para priorizar en base a una mezcla de consideraciones tales como
    • donde el rastreador falla
    • cuáles son los casos de uso del producto final
    • lo que será más estéticamente agradable
    • lo que es más importante semánticamente

Como alguien con una formación técnica en la ciencia de la expresión y la anatomía facial - que ha también cumplió todas estas funciones... estoy aquí para decírselo: La cantidad de datos impuros en la tecnología de rastreo facial está lejos de ser insignificante. En resumen, aunque el algoritmo sea perfecto, surgen problemas:

  • datos impuros planteados
    • Cuando se recogen datos de expresión planteada de participantes humanos, los datos siempre estarán contaminados. Garantizado.
    • La mayoría de la gente no puede alcanzar cada expresión del objetivo. Es raro encontrar datos de acción facial pura. Cuando los participantes realizan expresiones impuras, es porque están mostrando la acción facial equivocada o porque son incapaces de aislar la expresión objetivo sin emplear músculos faciales adicionales no objetivo.
    • Para colmo, los encargados de la adquisición de datos a menudo no pueden decir si el participante está o no dando la expresión del objetivo. Esta falta de conocimiento no es culpa de los adquisidores de datos, sino más bien de las prioridades equivocadas de la Compañía X y la falta de atención a la contratación o mantenimiento del talento adecuado.
  • mal etiquetado de datos
    • Debido a que la mayoría de las empresas de tecnología están tan centradas en la búsqueda de talentos de ingeniería, no dan prioridad al etiquetado de datos relacionados con las funciones. En su lugar, los esfuerzos relacionados con el etiquetado se tratan a menudo como puestos de bajo nivel designados para contratistas sin ninguna experiencia en particular.
    • Los contratistas que empiezan con poca experiencia pueden llegar a estar lo suficientemente en sintonía con los datos como para adquirir una experiencia; sin embargo, esto rara vez ocurre, porque las funciones de etiquetado de los contratos suelen tener una alta rotación.
  • elecciones de arte no informadas
    • Es importante que el arte entienda la tecnología, y que la tecnología entienda el arte. Aprovechar el entendimiento de ambos lados no es lo suficientemente importante. A menudo hay una gran desconexión entre el arte y la ingeniería. Por esta razón, debería haber más roles construidos para entender ambos lados, roles del tipo "Crear Tecnólogo".
    • La razón por la que los buenos rastreadores se ven bien no es usualmente por los rastreadores mismos, sino por las elecciones artísticas hechas para combatir la tecnología inmadura detrás de las escenas.

de vuelta a Animoji y por qué mis cejas interiores bajan cada vez que sonrío.

Como se mencionó al principio de este post, cada vez que Animoji intenta reflejar mi sonrisa, hay una adición innecesaria de bajar la ceja en las esquinas internas de mi ceja. De nuevo, esta adición persiste en varios tipos de sonrisas tanto auténticas como inauténticas.

El cuadro que figura a continuación es un ejemplo de cómo la interacción entre la calidad de los datos y el arte puede afectar a diversas expresiones de manera negativa y causar problemas como la caída de la frente con sonrisas. (Sí, hay múltiples causas potenciales, incluyendo problemas con el propio algoritmo; sin embargo, este es un esquema de un escenario con un conjunto específico de condiciones).

similar

...que se descomponga...

Arrugador de nariz y levantador de labio superior son dos acciones faciales que se parecen.

  •  A menudo se confunden entre sí tanto a nivel de recopilación de datos como a nivel de etiquetado de datos.
  • Debido a que muchas empresas de tecnología no invierten en la calidad de los datos tanto como deberían, no suelen alojar a empleados que puedan entender o explicar con precisión cómo se diferencian arrugador de la nariz y levantamiento del labio superior.
  • Los errores tanto en la recolección como en el etiquetado de los datos pasan desapercibidos, y el talento es incapaz de detectar los errores de seguimiento.

Una técnica común en el arte (una que yo desaconsejo) es usar el levantador de labios superior como un complemento de forma combo para las sonrisas.

  • Debido a que la acción del tirador de la esquina del labio levanta el labio superior cuando una sonrisa es intensa, muchos asumen que este movimiento es sinónimo de ...para levantar el labio superior. No lo es.
  • Muchos artistas usan el levantamiento del labio superior forma para combinar con tirador de la esquina del labio para crear una fuerte sonrisa. Más detalles aquí.
  • Incluso si no tuviera fuertes problemas estéticos y de precisión con esta técnica, todavía habría un gran problema:
    • Si la elevación del labio superior está ligada al arrugador de la nariz, cuando se inicia una sonrisa fuerte, activará la elevación del labio superior, que a su vez activará el arrugador de la nariz. Por lo tanto, cuando alguien sonríe, sus cejas bajarán. Malo.

No se presta suficiente atención a la calidad de los datos.
No se le da suficiente crédito al arte.

arreglando el asunto

Volviendo a mi puesto en Los hábitos de contratación homogéneos de Big Tech, estos problemas pueden mitigarse incorporando estrategias de contratación con menos visión de túnel. El aprendizaje automático ha avanzado hasta el punto de requerir conocimientos interdisciplinarios. Contrata a las personas adecuadas, y no seas miope en cuanto a las necesidades de talento.

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.