Le abitudini di assunzione omogenee delle Big Tech danneggiano i nostri dati

Nel nostro mondo digitale focalizzato sul consumatore, abbiamo fabbricato un'urgenza di innovare e sviluppare prodotti emergenti. Con l'apprendimento automatico che fa tendenza e una pressione auto-perpetuante per muoversi velocemente e rompere - voglio dire "costruire" - le cose, Big Tech è in costante bisogno di costruttori. Di conseguenza, gli ingegneri del software sono diventati una merce molto ambita, dominando l'organico e scatenando guerre di offerte tra le aziende. Tuttavia, mentre le ambizioni di apprendimento automatico crescono, crescono anche le esigenze di dati, trasformando i problemi incentrati sugli ingegneri in questioni interdisciplinari. I progetti che producono dati altamente ambigui - come le espressioni facciali per il face tracking - richiedono una comprensione dei dati che va oltre l'ambito dell'ingegneria; richiedono un matrimonio interdisciplinare tra l'ingegneria e il campo complementare che viene applicato. Pertanto, è fondamentale per le aziende tecnologiche assumersi la responsabilità dell'integrità dei dati incorporando esperti del settore nel processo di sviluppo del prodotto.

Mentre non è nella cultura di Big Tech dare la priorità a ruoli non ingegneristici, altre industrie riconoscono l'importanza delle competenze tecniche nell'apprendimento automatico. Il campo delle biotecnologie, per esempio, si basa sulla collaborazione tra esperti medici e ingegneri. In questo caso, il bisogno di collaborazione è ovvio, ma in regni più oscuri di specializzazione, il bisogno non è sempre evidente. Come menzionato in precedenza, un'area importante che soffre di oscurità e mancanza di comprensione è il face tracking. I casi d'uso comuni per il face tracking - compresi i filtri facciali, il rilevamento delle caratteristiche per la pubblicità dei prodotti (ad esempio il rilevamento delle labbra per testare i prodotti di rossetto o il rilevamento degli occhi per gli occhiali) e gli avatar - sono relativamente benigni. Tuttavia, quando si considerano casi d'uso meno "carini" come il rilevamento delle emozioni, il monitoraggio del comportamento e il rilevamento dell'inganno con applicazioni nel sistema di giustizia penale, nel settore assicurativo o nel mondo della sicurezza informatica - le prestazioni di un modello di apprendimento automatico diventano controverse; e se fatto nel modo sbagliato, diventa pericoloso. Ci sono già molti problemi noti con la tecnologia di riconoscimento facciale e il suo uso non regolamentato in diversi paesi e industrie. Poiché il tracciamento dell'espressione facciale non identifica semplicemente una persona, ma piuttosto osserva e trae conclusioni sul comportamento di quella persona, ha la capacità di essere molto più invasivo.

Nonostante l'importanza fondamentale dei dati di espressione per il face tracking, Big Tech spesso non riesce a dare priorità alla qualità dei dati di espressione. Product manager, engineering manager, ricercatori di utenti e ingegneri del software si affidano comunemente alla loro comprensione superficiale e a ricerche ad hoc piuttosto che beneficiare della profondità di comprensione che un esperto potrebbe fornire. Mentre gli ingegneri del software sono maestri nel creare algoritmi, spesso possiedono solo una conoscenza sommaria di ciò che va nei dati. Dato il loro carico di lavoro ad alta pressione e l'attenzione alla propria conoscenza specializzata, non è possibile per gli ingegneri sviluppare un'ulteriore competenza nell'esaminare i dati delle espressioni sottili o padroneggiare i concetti complessi nella ricerca sulle emozioni.

Determinare quale tipo di dati è necessario, come raccoglierli e come etichettarli è un processo delicato. Se scegliete di puntare ai dati sbagliati, non importa quanto bene li raccogliete o li etichettate. Se mirate ai dati utili ma li raccogliete in modo improprio, anch'essi falliranno. Fallirà ancora di più se non li etichettate in modo preciso e/o accurato. A causa delle differenze morfologiche nelle caratteristiche facciali, delle distorsioni intrinseche nell'interpretazione delle espressioni e delle controversie tra i ricercatori delle emozioni e gli anatomisti facciali, qualsiasi gruppo che sviluppi algoritmi di tracciamento facciale con intenzioni che vadano oltre il rossetto "prova prima di comprare" deve accettare la responsabilità etica dell'integrità dei dati.

Piuttosto che assicurarsi che gli elementi costitutivi dei loro algoritmi siano ben compresi da coloro che li utilizzano, lo stato sfortunato di Big Tech è quello di raccogliere o acquisire quantità massicce di dati e passarli a etichettatori terzi. Gli etichettatori sono tipicamente esternalizzati, a contratto, e quasi sempre sottovalutati. Per monitorare la qualità delle etichette, lo standard è quello di creare e far rispettare vari Key Performance Indicators, o KPI, ma poiché Big Tech sceglie di non investire risorse in persone che possano legittimamente supervisionare la qualità dei dati avanzati, i KPI sono generalmente arbitrari e hanno poco valore. Per approfondire il problema, se gli ingegneri non sono adeguatamente equipaggiati con la profondità di comprensione per identificare le verità di base, cosa stanno effettivamente misurando? C'è l'apprendimento non supervisionato. E poi c'è l'ingegneria non supervisionata.

Quando lavoravo per una delle cinque grandi aziende della Silicon Valley, ero costantemente scioccato dalla disinvoltura con cui venivano trattati i dati complessi del face tracking. Anche se i miei colleghi erano menti brillanti nello sviluppo di algoritmi, possedevano una comprensione superficiale dell'anatomia facciale, dei concetti fondamentali delle emozioni e del comportamento delle espressioni. Come qualsiasi altra materia altamente specializzata, la comprensione delle sfumature dell'espressione umana richiede anni di studio intensivo ed esperienza. Nonostante il fatto che io fossi l'esperto di espressioni facciali che aveva dedicato la sua vita e la sua carriera alla comprensione delle sfumature del volto umano, venivo regolarmente escluso dalle riunioni importanti e dalle sessioni di pianificazione. Ho spesso sorpreso i colleghi a scartabellare tra pagine di riferimento obsolete e imprecise sulle espressioni (che attualmente sono fornendo nuove soluzioni per qui) nel tentativo di mettere insieme una pipeline di dati. La mia esperienza è stata spesso relegata a un ruolo di supervisione, e le mie competenze sono state utilizzate male in compiti irrilevanti come classificare i tipi di barba e il colore dei capelli. Quando segnalavo le tendenze nelle incongruenze dei dati o prevedevo problemi di hardware, venivo fatto sedere e mi veniva offerta una lezione su "come funziona l'apprendimento automatico".

Vedo molti annunci di lavoro che richiedono X anni di esperienza nel face tracking, ma richiedere un'esperienza correlata non è sufficiente. Proprio come il lavoro passato di un ingegnere nella tecnologia medica non lo qualifica per essere un medico, il semplice aver lavorato sulla tecnologia di tracciamento non qualifica un ingegnere per essere un'autorità sulle espressioni facciali o sulle emozioni. Se ci fosse più attenzione nell'assumere gli esperti appropriati, forse la lotta per trovare ingegneri con esperienze rare e specifiche sarebbe alleviata; tale alleggerimento potrebbe fare spazio a una collaborazione più innovativa tra l'ingegneria e le discipline complementari con cui può essere accoppiata.

La visione a tunnel di Big Tech focalizzata sull'ingegneria è un'abitudine negligente che deve cambiare. Mentre gli ingegneri del software sono davvero essenziali per il processo di apprendimento automatico, le ambizioni di apprendimento automatico ci hanno portato a un punto in cui dobbiamo riconoscere la necessità di un'azione interdisciplinare. I dati per i sistemi contingenti sulle sfumature non dovrebbero essere presi alla leggera - specialmente quando sanguinano potenziali casi d'uso invasivi. Se le aziende valutassero le competenze in materia di dati con la stessa riverenza e lo stesso sostegno che danno alle competenze ingegneristiche, gli algoritmi e i dati da cui sono costruiti sarebbero più completi e meno fallibili. La mancanza di sistemi di dati olistici ci lascerà con prodotti non regolamentati suscettibili di distorsioni. Uno squilibrio di investimenti orientato verso gli algoritmi e lontano dalla qualità dei dati porterà a sforzi ingegneristici sprecati, a prodotti carenti e alla propagazione di tecnologie non etiche.

Non mettere tutti i tuoi effettivi in un solo cesto. Assumete responsabilmente.

Le abitudini di assunzione omogenee delle Big Tech danneggiano i nostri dati

1 commento su “Big Tech’s Homogeneous Hiring Habits Are Harming Our Data”

Lascia un commento

1 commento su “Big Tech’s Homogeneous Hiring Habits Are Harming Our Data”

Lascia un commento

Progettato per studi e team

Parliamone.