I vår konsumentfokuserade digitala värld har vi tillverkat ett brådskande behov av att förnya och utveckla nya produkter. Med maskininlärning som trend och ett ständigt tryck på att agera snabbt och bryta - jag menar "bygga" - saker, är Big Tech i konstant behov av byggare. Som ett resultat av detta har mjukvaruingenjörer blivit en mycket eftertraktad handelsvara, som dominerar antalet anställda och ger upphov till budkrig mellan företag. I takt med att ambitionerna för maskininlärning ökar, ökar dock även databehoven, vilket gör att ingenjörscentrerade problem omvandlas till tvärvetenskapliga frågor. Projekt som ger upphov till mycket tvetydiga data - som ansiktsuttryck för ansiktsspårning - kräver en förståelse av data som går utöver ingenjörens räckvidd; de kräver ett tvärvetenskapligt äktenskap mellan ingenjörsvetenskap och det kompletterande område som tillämpas. Därför är det viktigt att teknikföretagen tar ansvar för dataintegriteten genom att låta experter på området delta i produktutvecklingsprocessen.
Även om det inte hör till Big Tech:s kultur att prioritera roller som inte är tekniska roller, erkänner andra branscher vikten av aktuell expertis inom maskininlärning. Bioteknikbranschen är till exempel beroende av samarbete mellan både medicinska experter och och ingenjörer. I det här fallet är behovet av samarbete uppenbart, men i mer obskyra specialiseringsområden är behovet inte alltid uppenbart. Som tidigare nämnts är ansiktsspårning ett viktigt område som lider av oklarhet och bristande förståelse. Vanliga användningsområden för ansiktsspårning - inklusive ansiktsfilter, upptäckt av funktioner för produktreklam (t.ex. läppdetektering för att testa läppstiftsprodukter eller ögondetektering för glasögon) och avatarer - är relativt godartade. Men när man överväger mindre "söta" användningsområden som känslodetektion, beteendeövervakning och upptäckt av bedrägeri med tillämpningar inom straffrättssystemet, försäkringssektorn eller cybersäkerhetsvärlden - blir en maskininlärningsmodells prestanda omtvistad, och om den görs på fel sätt blir den farlig. Det finns redan många kända problem med tekniken för ansiktsigenkänning och dess oreglerade användning i olika länder och branscher. Eftersom spårning av ansiktsuttryck inte bara identifierar en person, utan snarare observerar och drar slutsatser om den personens beteende, har den kapacitet att vara mycket mer invasiv.
Trots den grundläggande betydelsen av uttrycksdata för ansiktsspårning misslyckas Big Tech ofta med att prioritera kvaliteten på uttrycksdata. Produktchefer, teknikchefer, användarforskare och mjukvaruingenjörer förlitar sig ofta på sin egen ytliga förståelse och ad hoc-sökningar i stället för att dra nytta av den djupa förståelse som en expert kan ge. Även om programvaruingenjörer är mästare på att skapa algoritmer har de ofta bara en ytlig kunskap om vad som ingår i data. Med tanke på deras höga arbetsbelastning och fokus på sin egen specialkunskap är det inte möjligt för ingenjörer att utveckla ytterligare expertis för att granska subtila uttrycksdata eller behärska komplexa begrepp inom känsloforskning.
Att bestämma vilken typ av data som behövs, hur den ska samlas in och hur den ska märkas är en känslig process. Om du väljer att rikta in dig på fel uppgifter spelar det ingen roll hur väl du samlar in eller märker dem. Om du riktar in dig på användbara uppgifter men samlar in dem på ett felaktigt sätt kommer det också att misslyckas. Det kommer att misslyckas ännu mer om du inte märker dem exakt och/eller korrekt. På grund av morfologiska skillnader i ansiktsdrag, inneboende bias i tolkningen av uttryck och kontroverser bland både emotionsforskare och ansiktsanatomer måste alla grupper som utvecklar algoritmer för ansiktsspårning med andra syften än att prova innan du köper läppstift acceptera ansvar och etiskt ansvar för dataintegritet.
I stället för att se till att algoritmernas byggstenar är väl förstådda av dem som använder dem, är det olyckliga tillståndet för Big Tech att samla in eller förvärva stora mängder data och skicka dem vidare till tredje part som utför etiketteringen. Dessa är vanligtvis utlokaliserade, kontrakterade och nästan alltid undervärderade. För att övervaka kvaliteten på etiketterna är det standard att skapa och upprätthålla olika nyckelindikatorer, eller KPI:er, men eftersom Big Tech väljer att inte investera resurser i personer som på ett legitimt sätt kan övervaka kvaliteten på avancerade uppgifter är KPI:erna i allmänhet godtyckliga och har liten värde. Om ingenjörerna inte är ordentligt utrustade med den djupa förståelse som krävs för att identifiera grundläggande sanningar, vad mäter de då egentligen? Det finns oövervakad inlärning. Och sedan finns det oövervakad teknik.
När jag arbetade för ett av de fem största företagen i Silicon Valley blev jag ständigt chockad av den nonchalanta inställning som rådde när det gällde komplexa uppgifter om ansiktsspårning. Även om mina kollegor var ledande inom algoritmutveckling hade de en ytlig förståelse för ansiktets anatomi, centrala känslokoncept och uttrycksbeteende. Precis som i alla andra högspecialiserade ämnen krävs det åratal av intensiva studier och erfarenhet för att förstå nyanserna i det mänskliga uttrycket. Trots att jag var den inhemska experten på ansiktsuttryck och hade ägnat mitt liv och min karriär åt att förstå nyanserna i det mänskliga ansiktet, blev jag regelbundet utesluten från viktiga möten och planeringssessioner. Jag såg ofta medarbetare som slumpmässigt letade igenom föråldrade och felaktiga referenssidor om uttryck (som jag för närvarande håller på att tillhandahålla nya lösningar för här) för att försöka få ihop en plan för en dataledning. Min expertis förpassades ofta till en övervakande roll, och min kompetens missbrukades på irrelevanta uppgifter som att klassificera skäggtyper och hårfärg. När jag upptäckte trender i inkonsekvenser i data eller förutsåg hårdvaruproblem sattes jag ner och erbjöds en lektion i "hur maskininlärning fungerar".
Jag ser många jobbannonser där man begär X års erfarenhet av ansiktsspårning, men det räcker inte att begära relaterad erfarenhet. På samma sätt som en ingenjörs tidigare arbete inom medicinsk teknik inte kvalificerar honom eller henne till att bli läkare, kvalificerar det faktum att han eller hon har arbetat med spårningsteknik inte en ingenjör till att vara en auktoritet när det gäller ansiktsuttryck eller känslor. Om man i högre grad fokuserade på att anställa lämpliga experter skulle kanske kampen för att hitta ingenjörer med sällsynta och specifika erfarenheter lindras; en sådan lindring skulle kunna ge utrymme för ett mer innovativt samarbete mellan ingenjörsyrket och de kompletterande discipliner som det kan paras ihop med.
Big Tech:s tunnelseende fokus på teknik är en vårdslös vana som måste förändras. Programvaruingenjörer är visserligen viktiga för maskininlärningsprocessen, men maskininlärningsambitionerna har fört oss till en punkt där vi måste erkänna behovet av tvärvetenskapliga åtgärder. Data för system som är beroende av nyanser bör inte tas lättvindigt - särskilt inte när de blöder potential för invasiva användningsfall. Om företagen värderade expertis inom datafrågan med samma vördnad och stöd som de gör med teknisk expertis, skulle algoritmerna. och de uppgifter som de bygger på skulle vara mer omfattande och mindre felbara. Avsaknaden av holistiska datasystem kommer att ge oss oreglerade produkter som är känsliga för fördomar. En obalans i investeringarna som är inriktade på algoritmer och inte på datakvalitet kommer att leda till slöseri med tekniska insatser, bristfälliga produkter och spridning av oetisk teknik.
Lägg inte alla dina anställda i samma korg. Anställ ansvarsfullt.
1 svar på ”Big Tech’s Homogeneous Hiring Habits Are Harming Our Data”