In onze consumentgerichte digitale wereld hebben we een dringende behoefte aan innovatie en ontwikkeling van opkomende producten gecreëerd. Met machine learning als trend en een zichzelf in stand houdende druk om snel te handelen en dingen te breken - ik bedoel "bouwen" - heeft Big Tech voortdurend bouwers nodig. Als gevolg daarvan zijn software-engineers een zeer begeerde grondstof geworden, die de headcount domineert en biedingsoorlogen tussen bedrijven uitlokt. Naarmate de ambities op het gebied van machine learning groeien, neemt ook de behoefte aan gegevens toe, waardoor engineer-centrische problemen veranderen in interdisciplinaire aangelegenheden. Projecten die zeer ambigue gegevens opleveren - zoals gezichtsuitdrukkingen voor gezichtsherkenning - vereisen een begrip van de gegevens dat buiten het bereik van engineering valt; ze vragen om een interdisciplinair huwelijk tussen engineering en het complementaire vakgebied dat wordt toegepast. Daarom is het van cruciaal belang voor technologiebedrijven om verantwoordelijkheid te nemen voor gegevensintegriteit door experts uit het veld op te nemen in het productontwikkelingsproces.
Hoewel het niet tot de cultuur van Big Tech behoort om prioriteit te geven aan niet-technische functies, erkennen andere industrieën het belang van actuele expertise in machinaal leren. De biotechsector, bijvoorbeeld, vertrouwt op de samenwerking tussen zowel medische experts en ingenieurs. In dit geval is de nood aan samenwerking duidelijk, maar in meer obscure domeinen van specialisatie is de nood niet altijd evident. Zoals eerder vermeld, is gezichtsherkenning een belangrijk gebied dat lijdt onder onduidelijkheid en gebrek aan begrip. Gebruikelijke toepassingen voor gezichtsherkenning - waaronder gezichtsfilters, kenmerkdetectie voor productreclame (bijvoorbeeld lipdetectie voor het testen van lippenstiftproducten of oogdetectie voor brillen) en avatars - zijn relatief onschuldig. Als we echter kijken naar minder "schattige" gebruikssituaties zoals emotiedetectie, gedragsmonitoring en detectie van bedrog met toepassingen in het strafrecht, de verzekeringssector of de wereld van cyberbeveiliging, worden de prestaties van een machine-learningmodel controversieel; en als het op de verkeerde manier wordt gedaan, wordt het gevaarlijk. Er zijn al veel bekende problemen met gezichtsherkenningstechnologie en het ongereguleerde gebruik ervan in verschillende landen en industrieën. Omdat het traceren van gezichtsuitdrukkingen niet simpelweg een persoon identificeert, maar eerder observeert en conclusies trekt over het gedrag van die persoon, kan het veel invasiever zijn.
Ondanks het fundamentele belang van expressiedata voor gezichtsherkenning, geeft Big Tech vaak geen prioriteit aan de kwaliteit van expressiedata. Productmanagers, engineering managers, gebruikersonderzoekers en software engineers vertrouwen vaak op hun eigen oppervlakkige kennis en ad hoc zoekopdrachten in plaats van te profiteren van de diepgaande kennis die een expert kan bieden. Terwijl software engineers meesters zijn in het creëren van algoritmes, hebben ze vaak slechts oppervlakkige kennis van wat er in de gegevens zit. Gezien hun hoge werkdruk en focus op hun eigen specialistische kennis, is het voor ingenieurs niet haalbaar om extra expertise te ontwikkelen in het nauwkeurig bestuderen van subtiele expressiedata of het beheersen van complexe concepten in emotieonderzoek.
Bepalen welk type gegevens nodig is, hoe je ze verzamelt en hoe je ze labelt, is een delicaat proces. Als je je richt op de verkeerde gegevens, maakt het niet uit hoe goed je ze verzamelt of labelt. Als je je richt op bruikbare gegevens, maar ze verkeerd verzamelt, zullen ze ook mislukken. Het mislukt nog eens als je de gegevens niet precies en/of nauwkeurig labelt. Vanwege morfologische verschillen in gelaatstrekken, inherente vertekeningen in de interpretatie van uitdrukkingen en controverse tussen zowel emotieonderzoekers als gezichtsanatomisten, moet elke groep die algoritmen voor het volgen van gezichten ontwikkelt met bedoelingen die verder gaan dan het uitproberen van lippenstift voordat je het koopt, verantwoordelijkheid en ethische verantwoordelijkheid nemen voor de integriteit van de gegevens.
In plaats van ervoor te zorgen dat de bouwstenen van hun algoritmen goed begrepen worden door degenen die ze gebruiken, is de ongelukkige toestand van Big Tech het verzamelen of verwerven van grote hoeveelheden gegevens en deze door te geven aan labelaars van derden. De labelaars zijn meestal uitbesteed, op contractbasis en bijna altijd ondergewaardeerd. Om de kwaliteit van de labels te bewaken, is het standaard om verschillende Key Performance Indicators, of KPI's, te creëren en af te dwingen, maar omdat Big Tech ervoor kiest om geen middelen te investeren in mensen die legitiem toezicht kunnen houden op de kwaliteit van geavanceerde gegevens, zijn de KPI's over het algemeen willekeurig en hebben ze weinig waarde. Wat meten ze eigenlijk als ingenieurs niet voldoende zijn toegerust om grondwaarheden te identificeren? Er is leren zonder toezicht. En dan is er nog de techniek zonder toezicht.
Toen ik voor een van de Big Five bedrijven in Silicon Valley werkte, was ik voortdurend geschokt door de nonchalante houding ten opzichte van complexe gezichtsherkenningsgegevens. Hoewel mijn collega's toonaangevend waren in de ontwikkeling van algoritmes, hadden ze een oppervlakkig begrip van de anatomie van het gezicht, de kernbegrippen van emoties en het gedrag van uitdrukkingen. Net als elk ander zeer gespecialiseerd onderwerp, vergt het begrijpen van de nuances van menselijke expressie jaren van intensieve studie en ervaring. Ondanks het feit dat ik de expert in gezichtsuitdrukking was die mijn leven en carrière had gewijd aan het begrijpen van de nuances van het menselijk gezicht, werd ik regelmatig uitgesloten van belangrijke vergaderingen en planningssessies. Ik betrapte mijn collega's er vaak op dat ze lukraak door verouderde en onnauwkeurige naslagwerken over gezichtsuitdrukkingen aan het bladeren waren (waar ik nu mee bezig ben). nieuwe oplossingen bieden voor hier) in pogingen om een data pipeline plan in elkaar te flansen. Mijn expertise werd vaak gedegradeerd tot een toezichthoudende rol en mijn vaardigheden werden misbruikt voor irrelevante taken zoals het classificeren van baardtypes en haarkleur. Als ik trends in inconsistenties in gegevens signaleerde of hardwareproblemen voorzag, werd ik op mijn stoel gezet en kreeg ik een les in "hoe machine learning werkt".
Ik zie veel vacatures waarin wordt gevraagd om X jaar ervaring in het volgen van gezichten, maar het is niet genoeg om te vragen om gerelateerde ervaring. Net zoals het werk van een ingenieur in medische technologie hem niet kwalificeert als arts, kwalificeert het werken aan trackingtechnologie een ingenieur niet als autoriteit op het gebied van gezichtsuitdrukkingen of emoties. Als er meer aandacht zou zijn voor het inhuren van de juiste experts, zou de strijd om ingenieurs te vinden met zeldzame en specifieke ervaring misschien worden verlicht; een dergelijke verlichting zou ruimte kunnen maken voor meer innovatieve samenwerking tussen engineering en de complementaire disciplines waarmee het kan worden gekoppeld.
De tunnelvisie focus van Big Tech op engineering is een nalatige gewoonte die moet veranderen. Hoewel software-ingenieurs inderdaad essentieel zijn voor het proces van machinaal leren, hebben de ambities op het gebied van machinaal leren ons op een punt gebracht waar we de noodzaak van interdisciplinaire actie moeten erkennen. Gegevens voor systemen die afhankelijk zijn van nuances moeten niet lichtvaardig worden genomen - vooral niet als ze potentieel hebben voor invasieve gebruikssituaties. Als bedrijven expertise in datamaterie met dezelfde eerbied zouden waarderen en ondersteunen als technische expertise, dan zouden de algoritmen en de gegevens waaruit ze zijn opgebouwd uitgebreider en minder feilbaar zouden zijn. Een gebrek aan holistische datasystemen zal leiden tot ongereguleerde producten die vatbaar zijn voor vooroordelen. Een onevenwichtige investering ten gunste van algoritmen en ten koste van de gegevenskwaliteit zal leiden tot verspilde technische inspanningen, gebrekkige producten en de verspreiding van onethische technologie.
Stop niet al je personeel in één mandje. Neem verantwoord personeel aan.
1 reacties op “Big Tech’s Homogeneous Hiring Habits Are Harming Our Data”