Однорідні звички найму у великих технологічних компаніях шкодять нашим даним

У нашому цифровому світі, орієнтованому на споживача, ми створили нагальну потребу в інноваціях та розробці нових продуктів. Зважаючи на тенденції машинного навчання та постійний тиск, що змушує нас рухатися швидко та створювати - я маю на увазі "будувати" - речі, великі технології постійно потребують будівельників. Як наслідок, інженери-програмісти стали дуже затребуваним товаром, домінуючи в штаті та розпалюючи тендерні війни між компаніями. Однак зі зростанням амбіцій машинного навчання зростають і потреби в даних, перетворюючи проблеми, що стосуються інженерів, на міждисциплінарні питання. Проекти, які дають дуже неоднозначні дані - наприклад, міміка для відстеження осіб - вимагають розуміння даних, що виходять за рамки інженерії; вони вимагають міждисциплінарного зв'язку між інженерією та суміжними галузями, які застосовуються. Тому для технологічних компаній вкрай важливо взяти на себе відповідальність за цілісність даних, залучаючи до процесу розробки продукту експертів у відповідних галузях.

Хоча в культурі великих технологій не прийнято надавати пріоритет неінженерним ролям, інші галузі визнають важливість актуальних знань у галузі машинного навчання. Наприклад, сфера біотехнологій покладається на співпрацю між медичними експертами і інженери. У цьому випадку потреба у співпраці очевидна, але в більш незрозумілих сферах спеціалізації вона не завжди очевидна. Як згадувалося раніше, однією з основних областей, яка страждає від невідомості і нерозуміння, є відстеження облич. Поширені випадки використання відстеження облич - включаючи фільтри для обличчя, виявлення особливостей для реклами продуктів (наприклад, виявлення губ для тестування помад або очей для окулярів) і аватарів - відносно нешкідливі. Однак, якщо розглядати менш "милі" випадки використання, такі як розпізнавання емоцій, моніторинг поведінки та виявлення обману в системі кримінального правосуддя, страховому секторі або у світі кібербезпеки, ефективність моделі машинного навчання стає спірною; а якщо її використовувати неправильно, вона стає небезпечною. Вже відомо багато проблем, пов'язаних з технологією розпізнавання облич та її нерегульованим використанням у різних країнах та галузях. Оскільки відстеження виразу обличчя не просто ідентифікує людину, а спостерігає і робить висновки про її поведінку, воно може бути набагато більш інвазивним.

Незважаючи на фундаментальну важливість даних про міміку для відстеження облич, великі технології часто не надають пріоритету якості даних про міміку. Менеджери продуктів, інженерні менеджери, користувацькі дослідники та інженери-програмісти зазвичай покладаються на власне поверхневе розуміння та ситуативні пошуки, замість того, щоб скористатися глибиною розуміння, яку міг би надати експерт. Хоча інженери-програмісти є майстрами у створенні алгоритмів, вони часто мають лише поверхневі знання про те, що входить до складу даних. Враховуючи їхню високу завантаженість і зосередженість на власних спеціалізованих знаннях, інженери не мають можливості розвивати додаткову експертизу в ретельному аналізі даних про тонкі вирази обличчя або опановувати складні концепції в дослідженні емоцій.

Визначення того, який тип даних потрібен, як їх збирати і як їх позначати, - це делікатний процес. Якщо ви оберете неправильні дані, не матиме значення, наскільки добре ви їх зберете чи позначите. Якщо ви збираєте корисні дані, але збираєте їх неналежним чином, це також призведе до невдачі. Якщо ви не позначите їх точно та/або безпомилково, це буде ще однією помилкою. Через морфологічні відмінності в рисах обличчя, невід'ємні упередження в інтерпретації виразу та суперечки між дослідниками емоцій та анатомами обличчя, будь-яка група, що розробляє алгоритми відстеження обличчя з намірами, що виходять за рамки "спробуй, перш ніж купити помаду", повинна взяти на себе підзвітність та етичну відповідальність за цілісність даних.

Замість того, щоб гарантувати, що складові їхніх алгоритмів добре зрозумілі тим, хто їх використовує, на жаль, великі технології збирають або отримують величезні обсяги даних і передають їх стороннім маркувальникам. Як правило, етикетувальники працюють на аутсорсингу, за контрактом і майже завжди недооцінюються. Для моніторингу якості етикеток стандартом є створення та впровадження різних ключових показників ефективності (KPI), але оскільки Big Tech воліє не інвестувати ресурси в людей, які можуть на законних підставах контролювати якість передових даних, KPI, як правило, є довільними і не мають великої цінності. Якщо інженери не мають достатньої глибини розуміння, щоб визначити прописні істини, то що ж вони насправді вимірюють? Це неконтрольоване навчання. А ще є неконтрольована інженерія.

Коли я працював в одній з компаній "Великої п'ятірки" у Кремнієвій долині, мене постійно шокувало безтурботне ставлення до складних даних відстеження облич. Хоча мої колеги були провідними фахівцями з розробки алгоритмів, вони мали поверхневе уявлення про анатомію обличчя, основні концепції емоцій та експресивну поведінку. Як і будь-яка інша вузькоспеціалізована тема, розуміння нюансів людської експресії потребує років інтенсивного вивчення та досвіду. Незважаючи на те, що я був штатним експертом з міміки, який присвятив своє життя і кар'єру розумінню нюансів людського обличчя, мене регулярно виключали з важливих зустрічей і сесій з планування. Я часто бачив, як колеги безладно гортають застарілі та неточні довідники з міміки (які я зараз пропонуючи нові рішення для тут) у спробах зламати план конвеєра даних. Мій досвід часто зводився до наглядової ролі, а мої навички зловживали на нерелевантних завданнях на кшталт класифікації типів бороди та кольору волосся. Коли я помічав тенденції у невідповідності даних або передбачав проблеми з обладнанням, мене саджали і пропонували урок про те, "як працює машинне навчання".

Я бачу багато оголошень про вакансії, в яких вимагається досвід роботи в галузі відстеження осіб від Х років, але одного лише досвіду роботи в цій сфері недостатньо. Так само, як минула робота інженера в галузі медичних технологій не дає йому права бути лікарем, так і просто робота над технологією відстеження не дає йому права бути експертом з міміки та емоцій. Якби більше уваги приділялося найму відповідних експертів, можливо, боротьба за пошук інженерів з рідкісним і специфічним досвідом була б полегшена; таке полегшення могло б звільнити місце для більш інноваційної співпраці між інженерією та суміжними дисциплінами, з якими вона може бути пов'язана.

Тунельне бачення Big Tech, зосереджене на інженерії, є шкідливою звичкою, яку потрібно змінювати. Хоча інженери-програмісти дійсно необхідні для процесу машинного навчання, амбіції машинного навчання привели нас до того, що ми повинні визнати необхідність міждисциплінарних дій. До даних для систем, які залежать від нюансів, не можна ставитися легковажно, особливо коли вони створюють потенціал для інвазивних випадків використання. Якби компанії цінували експертизу в галузі даних з такою ж повагою і підтримкою, як вони цінують інженерну експертизу, алгоритми і дані, на основі яких вони побудовані, були б більш повними і менш помилковими. Відсутність цілісних систем даних залишить нас з нерегульованими продуктами, схильними до упередженості. Дисбаланс інвестицій, зміщений у бік алгоритмів, а не якості даних, призведе до марнування інженерних зусиль, неякісних продуктів і поширення неетичних технологій.

Не кладіть весь свій персонал в один кошик. Наймайте відповідально.

1 подумав про "Big Tech’s Homogeneous Hiring Habits Are Harming Our Data"

Залишити коментар

Цей сайт використовує Akismet для зменшення спаму. Дізнайтеся, як обробляються дані ваших коментарів.

Розроблено для студій та команд

Давайте поговоримо.

facetheFACS@melindaozel.com