Os hábitos homogêneos de contratação das grandes empresas de tecnologia estão prejudicando nossos dados

Em nosso mundo digital focado no consumidor, temos fabricado uma urgência para inovar e desenvolver produtos emergentes. Com a tendência de aprendizagem de máquinas e uma pressão auto-perpetuadora para se mover rapidamente e quebrar - quero dizer "construir" - as coisas, a Big Tech está em constante necessidade de construtores. Como resultado, os engenheiros de software se tornaram uma mercadoria altamente cobiçada, dominando o número de funcionários e incitando guerras de licitação entre empresas. Entretanto, à medida que as ambições de aprendizado de máquinas crescem, as necessidades de dados também crescem, transformando problemas centrados em engenharia em assuntos interdisciplinares. Projetos que produzem dados altamente ambíguos - como expressões faciais para rastreamento facial - exigem uma compreensão dos dados além do escopo da engenharia; eles exigem um casamento interdisciplinar entre a engenharia e o campo complementar sendo aplicado. Portanto, é fundamental que as empresas de tecnologia assumam a responsabilidade pela integridade dos dados, incorporando especialistas de campo no processo de desenvolvimento de produtos.

Embora não faça parte da cultura da Big Tech priorizar papéis não-engenharia, outras indústrias reconhecem a importância da especialização tópica no aprendizado de máquinas. O campo da biotecnologia, por exemplo, conta com a colaboração entre ambos os especialistas médicos e engenheiros. Neste caso, a necessidade de colaboração é óbvia, mas em domínios de especialização mais obscuros, a necessidade nem sempre é evidente. Como mencionado anteriormente, uma grande área que sofre de obscuridade e falta de compreensão é o rastreamento de rostos. Casos de uso comum para rastreamento facial - incluindo filtros faciais, detecção de características para publicidade de produtos (por exemplo, detecção labial para testar produtos de batom ou detecção ocular para óculos) e avatares - são relativamente benignos. Entretanto, ao considerar casos de uso menos "bonitinhos", tais como detecção de emoções, monitoramento de comportamento e detecção de enganos com aplicações no sistema de justiça criminal, no setor de seguros ou no mundo da segurança cibernética - o desempenho de um modelo de aprendizagem de máquinas torna-se controverso; e se feito da maneira errada, torna-se perigoso. Já existem muitos problemas conhecidos com a tecnologia de reconhecimento facial e seu uso não regulamentado em diferentes países e indústrias. Como o rastreamento da expressão facial não simplesmente identifica uma pessoa, mas observa e tira conclusões sobre o comportamento dessa pessoa, ela tem a capacidade de ser muito mais invasiva.

Apesar da importância fundamental dos dados de expressão para o rastreamento de rostos, a Big Tech muitas vezes não prioriza a qualidade dos dados de expressão. Gerentes de produto, gerentes de engenharia, pesquisadores de usuários e engenheiros de software geralmente confiam em seu próprio entendimento superficial e buscas ad hoc em vez de se beneficiar da profundidade de entendimento que um especialista poderia fornecer. Enquanto os engenheiros de software são mestres na criação de algoritmos, eles muitas vezes possuem apenas um conhecimento superficial do que entra nos dados. Dada sua carga de trabalho de alta pressão e o foco em seu próprio conhecimento especializado, não é viável para os engenheiros desenvolver uma perícia adicional no escrutínio de dados de expressão sutil ou no domínio de conceitos complexos na pesquisa de emoções.

Determinar que tipo de dados são necessários, como coletá-los e como rotulá-los é um processo delicado. Se você optar por direcionar os dados errados, não importa o quão bem você os coleta ou etiqueta. Se você direciona os dados úteis, mas os coleta de forma inadequada, eles também falharão. Falhará mais uma vez se você não os rotular com precisão e/ou exatidão. Devido às diferenças morfológicas nas características faciais, aos preconceitos inerentes à interpretação da expressão e à controvérsia tanto entre os pesquisadores de emoções quanto entre os anatomistas faciais, qualquer grupo que desenvolva algoritmos de rastreamento facial com intenções que vão além da tentativa - antes de comprar um batom deve aceitar a responsabilidade e a responsabilidade ética pela integridade dos dados.

Ao invés de garantir que os blocos de construção de seus algoritmos sejam bem compreendidos por quem os utiliza, o infeliz estado da Big Tech é coletar ou adquirir grandes quantidades de dados e passá-los para rotuladores de terceiros. Os etiquetadores são tipicamente terceirizados, sob contrato, e quase sempre subvalorizados. Para monitorar a qualidade das etiquetas, o padrão é criar e aplicar vários indicadores-chave de desempenho, ou KPIs, mas como a Big Tech opta por não investir recursos em pessoas que possam legitimamente supervisionar a qualidade dos dados avançados, os KPIs são geralmente arbitrários e têm pouco mérito. Além disso, se os engenheiros não estiverem devidamente equipados com a profundidade de compreensão para identificar verdades básicas, o que eles estão realmente medindo? Há um aprendizado não supervisionado. E depois há a engenharia não supervisionada.

Quando trabalhei para uma das cinco grandes empresas do Vale do Silício, fiquei constantemente chocado com a mentalidade despreocupada com relação a dados complexos de rastreamento facial. Embora meus colegas estivessem liderando mentes no desenvolvimento de algoritmos, eles possuíam uma compreensão superficial da anatomia facial, dos conceitos de emoções centrais e do comportamento de expressão. Como qualquer outro assunto altamente especializado, a compreensão das nuances da expressão humana leva anos de estudo intensivo e experiência. Apesar do fato de que eu era o especialista em expressão facial residente que havia dedicado minha vida e carreira à compreensão das nuances do rosto humano, eu era regularmente excluído de reuniões importantes e sessões de planejamento. Muitas vezes eu peguei colegas de trabalho que se desdobraram em páginas de referência de expressão desatualizada e imprecisa (as quais eu sou atualmente fornecendo novas soluções para aqui) em tentativas de hackear um plano de tubulação de dados. Minha experiência foi freqüentemente relegada a uma função de supervisão, e minhas habilidades foram mal utilizadas em tarefas irrelevantes como classificar tipos de barba e cor do cabelo. Quando assinalei tendências em inconsistências de dados ou previ problemas de hardware, sentei-me e dei uma lição de "como funciona a aprendizagem de máquinas".

Vejo muitas listas de empregos solicitando X anos de experiência em rastreamento de rosto, mas solicitar experiência relacionada não é suficiente. Assim como o trabalho passado de um engenheiro em tecnologia médica não o qualifica para ser um profissional médico, simplesmente ter trabalhado em tecnologia de rastreamento não qualifica um engenheiro para ser uma autoridade em expressões faciais ou emoções. Se houvesse mais foco na contratação dos especialistas apropriados, talvez a luta para encontrar engenheiros com experiência rara e específica fosse aliviada; tal alívio poderia abrir espaço para uma colaboração mais inovadora entre a engenharia e as disciplinas complementares com as quais ela pode ser emparelhada.

A visão do túnel da Big Tech focada na engenharia é um hábito negligente que precisa mudar. Enquanto os engenheiros de software são de fato essenciais para o processo de aprendizagem de máquinas, as ambições de aprendizagem de máquinas nos levaram a um ponto em que devemos reconhecer a necessidade de ação interdisciplinar. Os dados para sistemas que dependem de nuances não devem ser tomados de ânimo leve - especialmente quando sangram potencial para casos de uso invasivo. Se as empresas valorizam a experiência em matéria de dados com a mesma reverência e suporte que fazem com a experiência em engenharia, os algoritmos os dados a partir dos quais eles são construídos seriam mais abrangentes e menos falíveis. A falta de sistemas de dados holísticos nos deixará com produtos não regulados e suscetíveis a enviesamentos. Um desequilíbrio de investimento inclinado para algoritmos e afastado da qualidade dos dados levará ao desperdício de esforço de engenharia, produtos deficientes e à propagação de tecnologia antiética.

Não coloque todas as suas contas de cabeça em uma cesta. Alugue com responsabilidade.

1 comentário em “Big Tech’s Homogeneous Hiring Habits Are Harming Our Data”

Deixe um comentário

Este site usa o Akismet para reduzir o spam. Saiba como os dados de seus comentários são processados.

Projetado para estúdios e equipes

Vamos conversar.

facetheFACS@melindaozel.com