Los hábitos homogéneos de contratación de las grandes tecnológicas están dañando nuestros datos

En nuestro mundo digital centrado en el consumidor, hemos fabricado una urgencia para innovar y desarrollar productos emergentes. Con la tendencia del aprendizaje automático y una presión que se autoperpetúa para moverse rápido y romper -quiero decir "construir"- cosas, la gran tecnología necesita constantemente constructores. Como resultado, los ingenieros de software se han convertido en un producto muy codiciado, que domina la plantilla y provoca guerras de ofertas entre las empresas. Sin embargo, a medida que crecen las ambiciones del aprendizaje automático, también crecen las necesidades de datos, transformando los problemas centrados en los ingenieros en asuntos interdisciplinarios. Los proyectos que producen datos muy ambiguos -como las expresiones faciales para el seguimiento de rostros- exigen una comprensión de los datos que va más allá del ámbito de la ingeniería; requieren una unión interdisciplinar entre la ingeniería y el campo complementario que se aplica. Por tanto, es fundamental que las empresas tecnológicas se responsabilicen de la integridad de los datos incorporando expertos en la materia al proceso de desarrollo del producto.

Aunque no está en la cultura de las grandes empresas tecnológicas dar prioridad a las funciones no relacionadas con la ingeniería, otros sectores reconocen la importancia de los conocimientos técnicos en el aprendizaje automático. El campo de la biotecnología, por ejemplo, se basa en la colaboración entre expertos médicos y ingenieros. En este caso, la necesidad de colaboración es obvia, pero en ámbitos de especialización más oscuros, la necesidad no siempre es evidente. Como ya se ha mencionado, un área importante que sufre de oscuridad y falta de comprensión es el seguimiento facial. Los casos de uso más comunes para el seguimiento facial -incluidos los filtros faciales, la detección de características para la publicidad de productos (por ejemplo, la detección de labios para probar productos de pintalabios o la detección de ojos para gafas) y los avatares- son relativamente benignos. Sin embargo, cuando se consideran casos de uso menos "bonitos", como la detección de emociones, la supervisión de comportamientos y la detección de engaños con aplicaciones en el sistema de justicia penal, el sector de los seguros o el mundo de la ciberseguridad, el rendimiento de un modelo de aprendizaje automático se vuelve polémico; y si se hace de forma incorrecta, se vuelve peligroso. Ya hay muchos problemas conocidos con la tecnología de reconocimiento facial y su uso no regulado en diferentes países e industrias. Dado que el seguimiento de la expresión facial no se limita a identificar a una persona, sino que observa y saca conclusiones sobre su comportamiento, tiene la capacidad de ser mucho más invasivo.

A pesar de la importancia fundamental de los datos de expresión para el seguimiento facial, las grandes empresas tecnológicas no suelen dar prioridad a la calidad de los datos de expresión. Los directores de producto, los directores de ingeniería, los investigadores de usuarios y los ingenieros de software suelen confiar en su propia comprensión superficial y en las búsquedas ad hoc, en lugar de beneficiarse de la profundidad de la comprensión que podría proporcionar un experto. Aunque los ingenieros de software son maestros en la creación de algoritmos, a menudo sólo poseen un conocimiento superficial de lo que contienen los datos. Dada su elevada carga de trabajo y su concentración en sus propios conocimientos especializados, no es factible que los ingenieros desarrollen una experiencia adicional en el escrutinio de datos de expresión sutil o en el dominio de conceptos complejos en la investigación de las emociones.

Determinar qué tipo de datos se necesitan, cómo recogerlos y cómo etiquetarlos es una proceso delicado. Si elige como objetivo los datos equivocados, no importará lo bien que los recoja o etiquete. Si eliges datos útiles pero los recoges de forma incorrecta, también fracasará. Y volverá a fallar si no los etiqueta con precisión o exactitud. Debido a las diferencias morfológicas de los rasgos faciales, a los sesgos inherentes a la interpretación de las expresiones y a la controversia entre los investigadores de las emociones y los anatomistas faciales, cualquier grupo que desarrolle algoritmos de seguimiento facial con intenciones que vayan más allá de probar antes de comprar un lápiz de labios debe aceptar la responsabilidad ética de la integridad de los datos.

En lugar de asegurarse de que los componentes de sus algoritmos sean bien comprendidos por quienes los utilizan, la desafortunada situación de las grandes empresas tecnológicas consiste en recopilar o adquirir cantidades masivas de datos y pasárselos a terceros etiquetadores. Los etiquetadores suelen ser subcontratados, contratados y casi siempre infravalorados. Para supervisar la calidad de las etiquetas, la norma es crear y hacer cumplir varios indicadores clave de rendimiento, o KPI, pero como Big Tech decide no invertir recursos en personas que puedan supervisar legítimamente la calidad de los datos avanzados, los KPI son generalmente arbitrarios y tienen poco mérito. Para agravar el problema, si los ingenieros no están debidamente equipados con la profundidad de entendimiento necesaria para identificar las verdades básicas, ¿qué es lo que realmente están midiendo? Existe el aprendizaje no supervisado. Y luego está la ingeniería no supervisada.

Cuando trabajé en una de las cinco grandes empresas de Silicon Valley, no dejaba de sorprenderme la despreocupación por los complejos datos de seguimiento facial. Aunque mis colegas eran mentes destacadas en el desarrollo de algoritmos, poseían un conocimiento poco profundo de la anatomía facial, los conceptos básicos de las emociones y el comportamiento de las expresiones. Como cualquier otra materia altamente especializada, comprender los matices de la expresión humana requiere años de estudio intensivo y experiencia. A pesar de que yo era el experto residente en expresión facial que había dedicado mi vida y mi carrera a entender los matices del rostro humano, se me excluía regularmente de las reuniones importantes y de las sesiones de planificación. A menudo sorprendía a mis compañeros de trabajo rebuscando en páginas de referencia de expresión anticuadas e inexactas (que actualmente estoy proporcionando nuevas soluciones para aquí) en los intentos de elaborar un plan de canalización de datos. Mi experiencia fue relegada con frecuencia a un papel de supervisión, y mis habilidades fueron mal utilizadas en tareas irrelevantes como la clasificación de los tipos de barba y el color del pelo. Cuando señalaba tendencias en las incoherencias de los datos o preveía problemas de hardware, me sentaban y me ofrecían una lección sobre "cómo funciona el aprendizaje automático".

Veo muchas ofertas de empleo en las que se piden X años de experiencia en el seguimiento de rostros, pero pedir experiencia relacionada no es suficiente. Del mismo modo que el trabajo anterior de un ingeniero en tecnología médica no le capacita para ser médico, el mero hecho de haber trabajado en tecnología de seguimiento no capacita a un ingeniero para ser una autoridad en expresiones faciales o emociones. Si se prestara más atención a la contratación de los expertos adecuados, tal vez se aliviaría la lucha por encontrar ingenieros con experiencias raras y específicas; ese alivio podría dar cabida a una colaboración más innovadora entre la ingeniería y las disciplinas complementarias con las que puede emparejarse.

La visión de túnel de las grandes tecnológicas centrada en la ingeniería es un hábito negligente que debe cambiar. Aunque los ingenieros de software son realmente esenciales para el proceso de aprendizaje automático, las ambiciones de éste nos han llevado a un punto en el que debemos reconocer la necesidad de una acción interdisciplinar. Los datos de los sistemas que dependen de los matices no deben tomarse a la ligera, sobre todo cuando tienen potencial para casos de uso invasivos. Si las empresas valoraran la experiencia en materia de datos con la misma reverencia y apoyo que lo hacen con la experiencia en ingeniería, los algoritmos y los datos a partir de los cuales se construyen serían más completos y menos falibles. La falta de sistemas de datos holísticos nos dejará con productos no regulados susceptibles de ser sesgados. Un desequilibrio en la inversión que se inclina hacia los algoritmos y se aleja de la calidad de los datos conducirá a un esfuerzo de ingeniería desperdiciado, a productos deficientes y a la propagación de tecnología poco ética.

No pongas todos tus efectivos en la misma cesta. Contrate con responsabilidad.

Los hábitos homogéneos de contratación de las grandes tecnológicas están dañando nuestros datos

1 comentarios en “Big Tech’s Homogeneous Hiring Habits Are Harming Our Data”

Deja un comentario

1 comentarios en “Big Tech’s Homogeneous Hiring Habits Are Harming Our Data”

Deja un comentario

Diseñado para estudios y equipos

Hablemos.