Les habitudes d'embauche homogènes des grandes entreprises technologiques nuisent à nos données

Dans notre monde numérique centré sur le consommateur, nous avons fabriqué une urgence d'innover et de développer des produits émergents. Avec la tendance à l'apprentissage automatique et une pression constante pour aller vite et casser - je veux dire "construire" - les choses, Big Tech a constamment besoin de constructeurs. En conséquence, les ingénieurs logiciels sont devenus une denrée très convoitée, dominant les effectifs et suscitant des guerres d'enchères entre les entreprises. Cependant, à mesure que les ambitions en matière d'apprentissage automatique se développent, les besoins en données augmentent également, transformant les problèmes centrés sur les ingénieurs en questions interdisciplinaires. Les projets produisant des données très ambiguës - comme les expressions faciales pour le suivi des visages - exigent une compréhension des données qui dépasse le cadre de l'ingénierie ; ils nécessitent un mariage interdisciplinaire entre l'ingénierie et le domaine complémentaire appliqué. Il est donc essentiel que les entreprises technologiques assument la responsabilité de l'intégrité des données en intégrant des experts du domaine dans le processus de développement des produits.

S'il n'est pas dans la culture de Big Tech de donner la priorité aux rôles non techniques, d'autres secteurs reconnaissent l'importance de l'expertise thématique dans l'apprentissage automatique. Le domaine de la biotechnologie, par exemple, repose sur la collaboration entre des experts médicaux et des spécialistes de l'informatique. et ingénieurs. Dans ce cas, le besoin de collaboration est évident, mais dans des domaines de spécialisation plus obscurs, le besoin n'est pas toujours évident. Comme nous l'avons mentionné précédemment, un domaine majeur souffrant d'obscurité et de manque de compréhension est le suivi des visages. Les cas d'utilisation courants du suivi du visage - notamment les filtres de visage, la détection des caractéristiques pour la publicité de produits (par exemple, la détection des lèvres pour tester les produits de rouge à lèvres ou la détection des yeux pour les lunettes) et les avatars - sont relativement bénins. Cependant, si l'on considère des cas d'utilisation moins "mignons" tels que la détection des émotions, la surveillance du comportement et la détection de la tromperie, avec des applications dans le système de justice pénale, le secteur des assurances ou le monde de la cybersécurité, les performances d'un modèle d'apprentissage automatique deviennent litigieuses ; et si elles sont mal utilisées, elles deviennent dangereuses. Il existe déjà de nombreux problèmes connus avec la technologie de reconnaissance faciale et son utilisation non réglementée dans différents pays et secteurs. Étant donné que le suivi de l'expression faciale ne se contente pas d'identifier une personne, mais qu'il observe et tire des conclusions sur le comportement de cette personne, il peut être beaucoup plus invasif.

Malgré l'importance fondamentale des données d'expression pour le suivi des visages, les grandes entreprises ne donnent souvent pas la priorité à la qualité des données d'expression. Les chefs de produit, les responsables de l'ingénierie, les chercheurs et les ingénieurs logiciels s'appuient généralement sur leur propre compréhension superficielle et sur des recherches ad hoc, au lieu de bénéficier de la compréhension approfondie qu'un expert pourrait apporter. Si les ingénieurs logiciels sont passés maîtres dans la création d'algorithmes, ils ne possèdent souvent qu'une connaissance superficielle de ce que contiennent les données. Compte tenu de leur charge de travail élevée et de l'importance qu'ils accordent à leurs propres connaissances spécialisées, il n'est pas possible pour les ingénieurs de développer une expertise supplémentaire dans l'examen des données d'expression subtiles ou dans la maîtrise des concepts complexes de la recherche sur les émotions.

Déterminer le type de données nécessaires, la manière de les collecter et de les étiqueter est une tâche difficile. processus délicat. Si vous choisissez de cibler les mauvaises données, la qualité de leur collecte ou de leur étiquetage n'aura aucune importance. Si vous ciblez des données utiles mais que vous les collectez mal, elles échoueront également. Elle échouera encore si vous ne l'étiquetez pas avec précision et/ou exactitude. En raison des différences morphologiques des traits du visage, des biais inhérents à l'interprétation des expressions et de la controverse entre les chercheurs en émotions et les anatomistes du visage, tout groupe développant des algorithmes de suivi du visage avec des intentions allant au-delà de l'essai avant l'achat de rouge à lèvres doit accepter la responsabilité éthique de l'intégrité des données.

Plutôt que de s'assurer que les éléments constitutifs de leurs algorithmes sont bien compris par ceux qui les utilisent, l'état malheureux de la Big Tech est de collecter ou d'acquérir des quantités massives de données et de les transmettre à des étiqueteurs tiers. Ces derniers sont généralement externalisés, sous contrat, et presque toujours sous-évalués. Pour contrôler la qualité des étiquettes, la norme est de créer et d'appliquer divers indicateurs clés de performance, ou ICP, mais comme Big Tech choisit de ne pas investir de ressources dans des personnes qui peuvent légitimement superviser la qualité des données avancées, les ICP sont généralement arbitraires et ont peu de valeur. Pour aggraver le problème, si les ingénieurs ne sont pas équipés de la profondeur de compréhension nécessaire pour identifier les vérités de base, que mesurent-ils réellement ? Il y a l'apprentissage non supervisé. Et puis il y a l'ingénierie non supervisée.

Lorsque je travaillais pour l'une des cinq grandes entreprises de la Silicon Valley, j'étais constamment choqué par l'état d'esprit nonchalant concernant les données complexes de suivi des visages. Bien que mes collègues soient de grands esprits dans le domaine du développement d'algorithmes, ils n'avaient qu'une compréhension superficielle de l'anatomie faciale, des concepts d'émotion fondamentaux et du comportement d'expression. Comme tout autre sujet hautement spécialisé, la compréhension des nuances de l'expression humaine nécessite des années d'études intensives et d'expérience. Bien que je sois l'expert attitré en matière d'expression faciale et que j'aie consacré ma vie et ma carrière à comprendre les nuances du visage humain, j'étais régulièrement exclu des réunions et des sessions de planification importantes. Je surprenais souvent mes collègues en train de fouiller dans des pages de référence sur les expressions, dépassées et inexactes (que je suis actuellement en train d'étudier). fournir de nouvelles solutions pour ici) pour tenter d'élaborer un plan de pipeline de données. Mon expertise était souvent reléguée à un rôle de supervision, et mes compétences étaient utilisées à mauvais escient pour des tâches non pertinentes comme la classification des types de barbe et de la couleur des cheveux. Lorsque je signalais des tendances dans les incohérences des données ou que je prévoyais des problèmes de matériel, on me faisait asseoir et on me proposait une leçon sur "le fonctionnement de l'apprentissage automatique".

Je vois de nombreuses offres d'emploi demandant X années d'expérience dans le suivi des visages, mais demander une expérience connexe n'est pas suffisant. De même que le travail antérieur d'un ingénieur dans le domaine de la technologie médicale ne le qualifie pas pour être médecin, le simple fait d'avoir travaillé sur une technologie de suivi ne permet pas à un ingénieur d'être une autorité en matière d'expressions faciales ou d'émotions. Si l'on s'attachait davantage à recruter les experts appropriés, la lutte pour trouver des ingénieurs possédant une expérience rare et spécifique serait peut-être allégée ; cet allégement pourrait faire place à une collaboration plus innovante entre l'ingénierie et les disciplines complémentaires auxquelles elle peut être associée.

La vision étroite de Big Tech sur l'ingénierie est une habitude négligente qui doit changer. Si les ingénieurs logiciels sont effectivement essentiels au processus d'apprentissage automatique, les ambitions en matière d'apprentissage automatique nous ont amenés à un point où nous devons reconnaître la nécessité d'une action interdisciplinaire. Les données des systèmes tributaires des nuances ne doivent pas être prises à la légère - surtout lorsqu'elles présentent un potentiel pour des cas d'utilisation invasifs. Si les entreprises accordaient à l'expertise en matière de données la même vénération et le même soutien qu'à l'expertise en ingénierie, les algorithmes et les données à partir desquelles ils sont construits seraient plus complètes et moins faillibles. L'absence de systèmes de données holistiques nous laissera avec des produits non réglementés susceptibles d'être biaisés. Un déséquilibre des investissements en faveur des algorithmes et au détriment de la qualité des données entraînera un gaspillage des efforts d'ingénierie, des produits déficients et la propagation de technologies contraires à l'éthique.

Ne mettez pas tous vos effectifs dans le même panier. Embauchez de manière responsable.

1 réflexion au sujet de « Big Tech’s Homogeneous Hiring Habits Are Harming Our Data »

Laisser un commentaire

Ce site utilise Akismet pour réduire les spams. Découvrez comment les données de vos commentaires sont traitées.

Conçu pour les studios et les équipes

Parlons-en.

facetheFACS@melindaozel.com