Kuluttajakeskeisessä digitaalisessa maailmassamme olemme valmistaneet kiireellisiä innovaatioita ja kehittyviä tuotteita. Kun koneoppiminen on trendi ja itsestään jatkuva paine toimia nopeasti ja rikkoa - tarkoitan "rakentaa" - asioita, Big Tech tarvitsee jatkuvasti rakentajia. Tämän seurauksena ohjelmistoinsinööreistä on tullut erittäin haluttu hyödyke, joka hallitsee henkilöstömäärää ja herättää tarjouskamppailuja yritysten välillä. Koneoppimisen tavoitteiden kasvaessa myös tietotarpeet kasvavat, mikä muuttaa insinöörikeskeiset ongelmat monialaisiksi asioiksi. Hankkeet, jotka tuottavat hyvin monitulkintaista dataa - kuten kasvojen seurantaan käytettävät kasvojen ilmeet - vaativat datan ymmärtämistä, joka ylittää insinööritieteiden soveltamisalan; ne edellyttävät insinööritieteiden ja sovellettavan täydentävän alan välistä poikkitieteellistä yhteistyötä. Siksi on ratkaisevan tärkeää, että teknologiayritykset ottavat vastuun tietojen eheydestä ottamalla alan asiantuntijoita mukaan tuotekehitysprosessiin.
Vaikka Big Techin kulttuuriin ei kuulu muiden kuin insinöörien tehtävien priorisointi, muut toimialat tunnustavat ajankohtaisen asiantuntemuksen merkityksen koneoppimisessa. Esimerkiksi biotekniikka-ala luottaa sekä lääketieteen asiantuntijoiden yhteistyöhön ja insinöörit. Tässä tapauksessa yhteistyön tarve on ilmeinen, mutta hämärämmillä erikoistumisaloilla tarve ei aina ole ilmeinen. Kuten aiemmin mainittiin, yksi merkittävä alue, joka kärsii hämäryydestä ja ymmärtämättömyydestä, on kasvojen seuranta. Kasvojenseurannan yleiset käyttötapaukset - kuten kasvosuodattimet, tuotemainonnan ominaisuuksien tunnistaminen (esim. huulten tunnistaminen huulipunatuotteiden testaamiseksi tai silmien tunnistaminen silmälasien testaamiseksi) ja avatarit - ovat suhteellisen hyvänlaatuisia. Kun kuitenkin tarkastellaan vähemmän "söpöjä" käyttötapauksia, kuten tunteiden havaitsemista, käyttäytymisen seurantaa ja petoksen havaitsemista, joilla on sovelluksia rikosoikeusjärjestelmässä, vakuutusalalla tai kyberturvallisuusmaailmassa, koneoppimisen mallin suorituskyvystä tulee kiistanalainen, ja jos se tehdään väärin, siitä tulee vaarallista. Kasvontunnistusteknologiaan ja sen sääntelemättömään käyttöön eri maissa ja toimialoilla liittyy jo monia tunnettuja ongelmia. Koska kasvojen ilmeiden seuranta ei pelkästään tunnista henkilöä, vaan pikemminkin tarkkailee ja tekee johtopäätöksiä henkilön käyttäytymisestä, se voi olla paljon invasiivisempaa.
Huolimatta siitä, että kasvojen seurannassa on perustavanlaatuisen tärkeää käyttää ilmaisutietoja, Big Tech ei useinkaan aseta ilmaisutietojen laatua etusijalle. Tuotepäälliköt, suunnittelupäälliköt, käyttäjätutkijat ja ohjelmistosuunnittelijat luottavat yleensä omaan pinnalliseen ymmärrykseensä ja tilapäisiin hakuihin sen sijaan, että he hyötyisivät asiantuntijan tarjoamasta syvällisestä ymmärryksestä. Vaikka ohjelmistosuunnittelijat ovat mestareita algoritmien luomisessa, heillä on usein vain pintapuolinen tietämys siitä, mitä dataan sisältyy. Kun otetaan huomioon heidän kova työtaakkansa ja keskittyminen omaan erikoistietämykseensä, insinöörien ei ole mahdollista kehittää lisäasiantuntemusta hienovaraisen ilmaisutiedon tutkimiseen tai tunteiden tutkimukseen liittyvien monimutkaisten käsitteiden hallintaan.
Sen määrittäminen, minkä tyyppistä tietoa tarvitaan, miten se kerätään ja miten se merkitään, on tärkeä tehtävä. herkkä prosessi. Jos valitset väärät tiedot, ei ole väliä, kuinka hyvin keräät tai merkitset ne. Jos kohdistat hyödylliset tiedot, mutta keräät ne väärin, myös se epäonnistuu. Se epäonnistuu jälleen kerran, jos et merkitse sitä tarkasti ja/tai täsmällisesti. Kasvojen piirteiden morfologisten erojen, ilmeiden tulkinnan luontaisten vääristymien ja sekä tunnetutkijoiden että kasvojen anatomien keskuudessa vallitsevien kiistojen vuoksi kaikkien ryhmien, jotka kehittävät kasvojenseuranta-algoritmeja, joiden tarkoitus on muutakin kuin kokeilla huulipunaa ennen kuin ostat sitä, on otettava vastuu ja eettinen vastuu tietojen eheydestä.
Sen sijaan, että varmistettaisiin, että algoritmien rakennuspalikat ovat niiden käyttäjien hyvin ymmärtämiä, Big Techin valitettava tilanne on kerätä tai hankkia suuria määriä tietoa ja välittää se kolmansille osapuolille, jotka tekevät merkintöjä. Merkkaajat ovat tyypillisesti ulkoistettuja, sopimusperusteisia ja lähes aina aliarvostettuja. Merkintöjen laadun valvomiseksi on tavallista luoda ja valvoa erilaisia keskeisiä suorituskykyindikaattoreita (Key Performance Indicators, KPI), mutta koska Big Tech ei halua investoida resursseja ihmisiin, jotka voisivat laillisesti valvoa kehittyneiden tietojen laatua, KPI:t ovat yleensä mielivaltaisia ja niillä on vain vähän arvoa. Ongelmaa pahentaa vielä se, että jos insinööreillä ei ole riittävää ymmärrystä perustotuuksien tunnistamiseksi, mitä he oikeastaan mittaavat? On olemassa valvomaton oppiminen. Ja sitten on olemassa valvomatonta suunnittelua.
Työskennellessäni yhdessä Piilaakson viidestä suuresta yrityksestä olin jatkuvasti järkyttynyt siitä, miten välinpitämättömästi suhtauduttiin monimutkaisiin kasvojenseurantatietoihin. Vaikka kollegani olivat johtavia algoritmien kehittäjiä, he ymmärsivät kasvojen anatomiaa, keskeisiä tunnekäsitteitä ja ilmeiden käyttäytymistä vain vähän. Kuten mikä tahansa muu pitkälle erikoistunut aihe, myös ihmisen ilmeiden vivahteiden ymmärtäminen vaatii vuosien intensiivistä opiskelua ja kokemusta. Huolimatta siitä, että olin kasvojen ilmeiden asiantuntija, joka oli omistanut elämänsä ja uransa ihmiskasvojen vivahteiden ymmärtämiselle, minut suljettiin säännöllisesti tärkeiden kokousten ja suunnittelukokousten ulkopuolelle. Satuin usein näkemään työtovereitani, jotka selailivat sattumanvaraisesti vanhentuneita ja epätarkkoja ilmeiden referenssisivuja (joita minä tällä hetkellä uusien ratkaisujen tarjoaminen täällä) yrittäessään koota dataputkistosuunnitelmaa. Asiantuntemukseni siirrettiin usein valvovaan rooliin, ja taitojani käytettiin väärin epäolennaisiin tehtäviin, kuten parratyyppien ja hiusvärien luokitteluun. Kun havaitsin suuntauksia tietojen epäjohdonmukaisuuksissa tai ennakoin laitteisto-ongelmia, minut istutettiin alas ja minulle tarjottiin oppitunti siitä, "miten koneoppiminen toimii".
Monissa työpaikkailmoituksissa pyydetään X vuoden kokemusta kasvojen seurannasta, mutta siihen liittyvä kokemus ei riitä. Aivan kuten insinöörin aiempi työ lääketieteellisen teknologian parissa ei pätevöitä häntä lääkäriksi, pelkkä työskentely kasvojen seurantateknologian parissa ei pätevöitä insinööriä kasvojen ilmeiden tai tunteiden asiantuntijaksi. Jos keskityttäisiin enemmän siihen, että palkataan sopivia asiantuntijoita, voitaisiin ehkä lieventää vaikeuksia löytää insinöörejä, joilla on harvinaista ja erityistä kokemusta; tällainen helpotus voisi tehdä tilaa innovatiivisemmalle yhteistyölle insinööritieteiden ja niiden täydentävien tieteenalojen välillä, joiden kanssa niitä voidaan yhdistää.
Big Techin tunnelinäkökulma tekniikkaan on huolimaton tapa, joka on muutettava. Vaikka ohjelmistotekniikan insinöörit ovatkin olennaisen tärkeitä koneoppimisprosessissa, koneoppimisen kunnianhimoiset tavoitteet ovat saaneet meidät pisteeseen, jossa meidän on tunnustettava monialaisten toimien tarve. Vivahteista riippuvaisten järjestelmien tietoja ei pidä ottaa kevyesti - varsinkaan silloin, kun niistä vuotaa potentiaalia invasiivisiin käyttötapauksiin. Jos yritykset arvostaisivat datan aihepiirin asiantuntemusta samalla kunnioituksella ja tuella kuin insinööriosaamista, algoritmit ja tiedot, joiden perusteella ne muodostetaan, olisivat kattavampia ja vähemmän virheellisiä. Kokonaisvaltaisten tietojärjestelmien puuttuminen jättää meille sääntelemättömiä tuotteita, jotka ovat alttiita vääristymille. Investointien epätasapaino algoritmeihin ja poispäin tietojen laadusta johtaa hukkaan heitettyyn insinöörityöhön, puutteellisiin tuotteisiin ja epäeettisen teknologian leviämiseen.
Älä laita kaikkia henkilöstömääriä yhteen koriin. Palkkaa vastuullisesti.
1 kommenttia artikkeliin ”Big Tech’s Homogeneous Hiring Habits Are Harming Our Data”