Por que tantos rastreadores de rosto e avatares sofrem com falsos positivos na redução de sobrancelhas? Usando o ARKit da Apple como um estudo de caso, esta análise explora a raiz do problema e revela uma correção surpreendentemente simples no final.
Avatares e sorrisos: Edição Memoji
O abaixamento falso-positivo da sobrancelha é um problema muito comum no rastreamento de rostos e na animação de avatares. Embora sutis, esses erros podem distorcer as expressões de um avatar, introduzindo sinais não intencionais de tristeza, raiva ou preocupação. No vídeo abaixo, faço um teste de estresse com o Memoji da Apple para demonstrar esse problema em ação.
No clipe acima, observe como meu Memoji "espelha" meu sorriso. Percebeu algo estranho ou desagradável? Os cantos internos da minha sobrancelha estão erroneamente abaixados. A adição de abaixamento de sobrancelha atribuído erroneamente persiste em vários tipos de sorrisos. Ela também persiste em outros usuários.
Sobrancelhas internas abaixadas acopladas a um lábio superior levantado (causado por ralador de nariz ou criador do lábio superior) é frequentemente associada a emoções desagradáveis. As pontas das sobrancelhas abaixadas também estão negativamente correlacionadas com o sorriso. Esses tipos de erros de rastreamento semanticamente significativos podem implicar, de forma não intencional, um sentimento negativo.
Como esses erros acontecem
O abaixamento de sobrancelhas falso-positivo geralmente decorre de problemas na qualidade dos dados, erros de rotulagem e escolhas artísticas. Veja por que esses problemas persistem:
- Não há foco suficiente na qualidade dos dados.
- Não há foco suficiente na arte.
Em todos os lugares onde trabalhei, houve tanta preocupação em contratar engenheiros com um histórico específico que O efetivo de pessoal é retirado de outros papéis essenciais.
Muitos líderes de tecnologia presumem que, se adquirirem dados suficientes para treinar seu modelo, os problemas com a qualidade simplesmente se resolverão sozinhos. Uau! Mágico. Essa suposição geralmente opera sob uma crença adicional (mas falsa) de que há apenas uma porcentagem insignificante de dados impuros.
Estive nas trincheiras de dados e trabalhei em quase todas as funções que não eram de engenharia no rastreamento facial:
- planejamento de dados - determinação do tipo de dados de expressão a serem coletados e de que forma
- coleta de dados - realmente trabalhando com os participantes e treinando-os para acertar a expressão correta poses
- anotação de dados - determinando as melhores formas de rotular os pontos de referência
- classificação de dados - aconselhando engenharia sobre quais classes devem existir, quais são seus parâmetros, e como lidar com seus inevitáveis casos de vantagem
- escalonamento - assegurar que as regras de anotação e classificação sejam padronizadas e fáceis de entender pelos etiquetadores em escala de massa
- monitoramento de rastreamento - comparando a verdade do terreno com os resultados do rastreamento
- identificação de áreas para melhoria - descobrir que problemas existem e como podem ser melhorados através de planejamento, coleta, anotação e/ou classificação
- desenvolvimento avatar - estrategizando as formas a serem priorizadas com base em uma mistura de considerações, tais como -
- onde o rastreador falha
- quais são os casos de uso do produto final
- o que será esteticamente mais agradável
- o que é semanticamente mais importante
Com minha experiência em ciência da expressão, anatomia facial e extenso trabalho com dados faciais, posso dizer com segurança que os dados impuros são um grande problema no rastreamento facial, e não um problema menor. Em resumo, mesmo que o algoritmo seja perfeito, surgem problemas:
Dados Impuros Posicionados
- Ao coletar dados de expressão dos participantes humanos, os dados serão sempre contaminados. Garantido.
- A maioria das pessoas não pode atingir todas as expressões alvo. É raro encontrar dados puros de ação facial. Quando os participantes realizam expressões impuras, é porque estão exibindo a ação facial errada ou porque são incapazes de isolar a expressão alvo sem empregar músculos faciais adicionais e não-alvo.
- Além disso, muitas vezes, os aquisitores de dados não sabem dizer se o participante está atingindo a expressão-alvo. Essa falta de conhecimento não é culpa dos adquirentes de dados, mas sim das prioridades equivocadas da Empresa X e da falta de atenção em contratar ou manter os talentos certos.
Rotulagem incorreta de dados
- Devido ao foco excessivo em talentos de engenharia, as empresas normalmente negligenciam a priorização das funções de rotulagem de dados. Em vez disso, os esforços de anotação costumam ser tratados como cargos de baixo nível designados para prestadores de serviços sem especialização específica.
- Os prestadores de serviços que começam com pouca experiência podem, eventualmente, entrar em sintonia com os dados o suficiente para adquirir um conhecimento especializado; no entanto, isso raramente acontece, porque as funções de rotulagem por contrato geralmente têm alta rotatividade.
Escolhas artísticas desinformadas
- É importante que a arte compreenda a tecnologia e que a tecnologia compreenda a arte. Há uma desconexão impressionante entre arte e engenharia nas empresas de tecnologia. Em muitos casos, os bons rastreadores parecem bons não por causa dos rastreadores em si, mas por causa das escolhas artísticas feitas para combater a tecnologia imatura nos bastidores. Mais recursos devem ser investidos para preencher a lacuna entre a arte e a engenharia.
Voltar para Memoji e falsos positivos para abaixar a sobrancelha
Conforme mencionado no início desta postagem, sempre que o Memoji tenta espelhar meu sorriso, há um acréscimo desnecessário de abaixamento da sobrancelha nos cantos internos da minha sobrancelha. Novamente, essa adição persiste em vários tipos de sorrisos.
O gráfico abaixo é um exemplo de como a interação entre a qualidade dos dados e a arte pode afetar várias expressões de forma negativa e causar problemas como o abaixamento da sobrancelha com sorrisos.
NOTA: É claro que pode haver várias causas possíveis, inclusive problemas com o próprio algoritmo; no entanto, este esboço foi feito para destacar um cenário específico com um conjunto específico de condições.
Desmembrando
Pulverizador de nariz e lábio superior são duas ações faciais que parecem semelhantes.
- Eles são freqüentemente confundidos um com o outro tanto no nível de coleta de dados quanto no nível de etiquetagem de dados.
- Como as empresas de tecnologia não investem adequadamente na qualidade dos dados, elas geralmente não promovem funcionários que possam identificar ou explicar com precisão como diferenciar ralador de nariz e criador do lábio superior.
- Erros tanto na coleta de dados quanto na etiquetagem de dados passam despercebidos, e o talento é incapaz de detectar erros de rastreamento.
Uma técnica comum em arte é usar criador do lábio superior como um complemento de forma combinada para sorrisos.
- Como a ação do puxador de canto do lábio levanta o lábio superior quando um sorriso é intenso, muitos assumem que este movimento é sinônimo de raiser do lábio superior. Não é tão simples assim.
- Muitos artistas usam o criador do lábio superior forma a combinar com puxador de canto labial para criar um sorriso forte. Mais detalhes aqui.
- Deixando de lado as questões estéticas e de precisão, permanece um problema gritante: Se criador do lábio superior está vinculado a rugas no nariz, quando um sorriso forte for iniciado, ele será ativado raiser do lábio superior, que, em seguida, ativará ralador de nariz. Portanto, quando alguém sorri, suas sobrancelhas se abaixam. Ruim.
Não se presta atenção suficiente à qualidade dos dados.
Não se dá crédito suficiente à arte.
Como corrigir o problema
A solução mais simples? Afaste-se do FACS e se apóie na anatomia facial. A solução mais fácil para reduzir a redução de falsos positivos por meio de ralador de nariz e criador do lábio superior é honrar as propriedades dos músculos que estão por trás dessas ações.
Do ponto de vista anatômico, nem o elevador da pálpebra superior (criador do lábio superior ) nem levator palpebrae superioris alaeque nasi (ralador de nariz músculo) abaixa as sobrancelhas. É somente dentro dos limites das regras de codificação facial da FACS que o abaixamento da sobrancelha está ligado ao enrugamento do nariz.
Você pode economizar uma dor de cabeça se simplesmente fizer isso:
- reformule suas regras de rotulagem para classificar o abaixador de sobrancelhas como uma ação separada da ralador de nariz
- redesenhe suas formas de mistura para hospedar um ralador de nariz sem o inerente abaixamento da sobrancelha