빅테크의 획일적인 채용 관행이 데이터를 해치고 있습니다.

소비자 중심의 디지털 세상에서 우리는 새로운 제품을 혁신하고 개발해야 하는 절박함을 만들어냈습니다. 머신러닝이 대세이고 빠르게 움직이고 무언가를 만들어내야 한다는 압박이 지속되면서 빅테크는 끊임없이 빌더를 필요로 하고 있습니다. 그 결과 소프트웨어 엔지니어는 매우 탐나는 상품이 되어 기업들 사이에서 인력을 장악하고 입찰 전쟁을 부추기고 있습니다. 그러나 머신 러닝에 대한 야망이 커지면서 데이터에 대한 수요도 증가하여 엔지니어 중심의 문제가 여러 분야의 문제로 변모하고 있습니다. 얼굴 추적을 위한 얼굴 표정처럼 매우 모호한 데이터를 생성하는 프로젝트는 엔지니어링의 범위를 넘어선 데이터에 대한 이해가 필요하며, 엔지니어링과 적용 중인 보완 분야 간의 학제 간 결합이 요구됩니다. 따라서 기술 기업은 제품 개발 과정에 현장 전문가를 참여시켜 데이터 무결성에 대한 책임을 다하는 것이 중요합니다.

빅테크의 문화에서 비엔지니어의 역할을 우선시하는 것은 아니지만, 다른 업계에서는 머신러닝에 대한 전문 지식의 중요성을 인정하고 있습니다. 예를 들어 생명공학 분야는 의료 전문가와 엔지니어의 협업에 의존합니다. 그리고 엔지니어. 이 경우 협업의 필요성은 분명하지만, 보다 모호한 전문 영역에서는 그 필요성이 항상 분명하지 않습니다. 앞서 언급했듯이, 모호하고 이해 부족으로 어려움을 겪고 있는 주요 영역 중 하나는 얼굴 추적입니다. 얼굴 필터, 제품 광고용 특징 감지(예: 립스틱 제품 테스트를 위한 입술 감지 또는 안경용 눈 감지), 아바타 등 얼굴 추적의 일반적인 사용 사례는 비교적 순조롭게 진행되고 있습니다. 하지만 형사 사법 시스템, 보험 분야 또는 사이버 보안 분야의 애플리케이션에서 감정 감지, 행동 모니터링, 속임수 감지 등 덜 '귀여운' 사용 사례를 고려하면 머신러닝 모델의 성능은 논란의 여지가 있으며, 잘못 사용하면 위험해질 수 있습니다. 이미 여러 국가와 산업에서 얼굴 인식 기술과 그 규제되지 않은 사용에 대한 많은 문제가 알려져 있습니다. 얼굴 표정 추적은 단순히 사람을 식별하는 것이 아니라 그 사람의 행동을 관찰하고 결론을 도출하기 때문에 훨씬 더 침습적일 수 있습니다.

얼굴 추적에 있어 표정 데이터의 근본적인 중요성에도 불구하고, 빅테크는 표정 데이터 품질을 우선시하지 않는 경우가 많습니다. 제품 관리자, 엔지니어링 관리자, 사용자 연구원, 소프트웨어 엔지니어는 일반적으로 전문가가 제공할 수 있는 심층적인 이해의 이점을 활용하기보다는 피상적인 이해와 임시 검색에 의존하는 경우가 많습니다. 소프트웨어 엔지니어는 알고리즘을 만드는 데는 능숙하지만, 데이터에 대한 피상적인 지식만 가지고 있는 경우가 많습니다. 엔지니어는 업무량이 많고 자신의 전문 지식에 집중해야 하기 때문에 미묘한 표정 데이터를 면밀히 조사하거나 감정 연구의 복잡한 개념을 숙달하기 위한 추가적인 전문성을 개발하는 것은 불가능합니다.

어떤 유형의 데이터가 필요한지, 어떻게 수집할지, 어떻게 레이블을 지정할지 결정하는 것은 섬세한 프로세스. 잘못된 데이터를 타깃으로 선택하면 아무리 잘 수집하거나 레이블을 지정해도 소용이 없습니다. 유용한 데이터를 타겟팅하지만 부적절하게 수집하면 역시 실패할 것입니다. 정밀하고 정확하게 라벨을 지정하지 않으면 또다시 실패할 것입니다. 얼굴 특징의 형태학적 차이, 표정 해석에 내재된 편견, 감정 연구자와 안면 해부학자 사이의 논란으로 인해 립스틱 시용 이상의 의도를 가지고 얼굴 추적 알고리즘을 개발하는 그룹은 데이터 무결성에 대한 책임과 윤리적 의무를 받아들여야 합니다.

빅 테크의 안타까운 현실은 알고리즘의 구성 요소를 사용하는 사람들이 이를 잘 이해하도록 하기보다는 대량의 데이터를 수집하거나 획득하여 제3자 라벨러에게 전달하는 것입니다. 라벨 제작업체는 일반적으로 계약에 따라 아웃소싱되며 거의 항상 저평가됩니다. 라벨의 품질을 모니터링하기 위해 다양한 핵심 성과 지표(KPI)를 만들고 시행하는 것이 표준이지만, 빅테크는 고급 데이터의 품질을 합법적으로 감독할 수 있는 인력에 자원을 투자하지 않기 때문에 KPI는 일반적으로 자의적이며 별다른 메리트를 갖지 못합니다. 더 큰 문제는 엔지니어가 근거 데이터를 식별할 수 있는 이해의 깊이를 제대로 갖추지 못한다면 실제로 무엇을 측정할 수 있을까요? 비지도 학습이 있습니다. 그리고 비지도 엔지니어링이 있습니다.

실리콘밸리의 빅5 기업 중 한 곳에서 일할 때 저는 복잡한 얼굴 추적 데이터에 대한 무심한 사고방식에 끊임없이 충격을 받았습니다. 제 동료들은 알고리즘 개발의 선두 주자였지만 얼굴 해부학, 핵심 감정 개념, 표정 행동에 대한 이해는 얕았습니다. 다른 고도로 전문화된 주제와 마찬가지로 인간 표정의 뉘앙스를 이해하려면 수년간의 집중적인 연구와 경험이 필요합니다. 저는 얼굴의 뉘앙스를 이해하는 데 평생과 경력을 바쳐온 표정 전문가임에도 불구하고 중요한 회의나 기획 세션에서 배제되는 일이 잦았습니다. 동료들이 오래되고 부정확한 표정 참조 페이지를 뒤적거리는 모습을 자주 목격했습니다(현재 저는 여기에 새로운 솔루션 제공) 데이터 파이프라인 요금제를 해킹하려고 시도한 적이 있습니다. 제 전문 지식은 종종 감독 역할로 밀려났고, 수염 유형이나 머리 색깔 분류와 같은 관련 없는 작업에 제 기술이 오용되기도 했습니다. 데이터 불일치의 추세를 파악하거나 하드웨어 문제를 예견했을 때, 저는 앉아서 "기계 학습의 작동 방식"에 대한 강의를 들었습니다.

얼굴 추적 분야에서 X년의 경력을 요구하는 구인 공고를 많이 보지만, 관련 경력을 요구하는 것만으로는 충분하지 않습니다. 엔지니어가 과거 의료 기술 분야에서 일했다고 해서 의료인이 될 자격이 없는 것처럼, 단순히 추적 기술 분야에서 일했다고 해서 얼굴 표정이나 감정에 대한 권위자가 될 자격이 있는 것은 아닙니다. 적절한 전문가를 채용하는 데 더 집중한다면 희귀하고 특별한 경험을 가진 엔지니어를 찾는 데 어려움을 덜 수 있을 것이며, 이러한 완화는 엔지니어링과 상호 보완적인 분야 간의 보다 혁신적인 협업을 위한 여지를 만들 수 있을 것입니다.

엔지니어링에만 집중하는 빅테크의 터널 비전은 이제 바꿔야 할 부주의한 습관입니다. 소프트웨어 엔지니어가 머신 러닝 프로세스에 필수적인 것은 사실이지만, 머신 러닝의 야망으로 인해 우리는 여러 분야를 아우르는 작업의 필요성을 인식해야 하는 시점에 이르렀습니다. 뉘앙스에 따라 달라지는 시스템용 데이터는 특히 침습적인 사용 사례로 이어질 가능성이 있는 경우 가볍게 여겨서는 안 됩니다. 기업이 엔지니어링 전문성과 마찬가지로 데이터 주제에 대한 전문성을 존중하고 지원한다면, 알고리즘은 그리고 구축되는 데이터는 더 포괄적이고 오류가 적을 것입니다. 전체적인 데이터 시스템의 부재는 편견에 취약한 규제되지 않은 제품을 남기게 될 것입니다. 데이터 품질이 아닌 알고리즘에 치우친 투자 불균형은 엔지니어링 노력의 낭비, 제품 결함, 비윤리적인 기술의 확산으로 이어질 것입니다.

모든 인원을 한 바구니에 담지 마세요. 책임감 있게 채용하세요.

"1"에 대한 Big Tech’s Homogeneous Hiring Habits Are Harming Our Data의 생각

댓글 남기기

이 사이트는 스팸을 줄이기 위해 Akismet을 사용합니다. 댓글 데이터가 어떻게 처리되는지 알아보세요.

스튜디오 및 팀을 위해 설계됨

이야기해 봅시다.

facetheFACS@melindaozel.com