Trong thế giới số hóa hướng đến người tiêu dùng, chúng ta đã tạo ra một áp lực cấp bách để đổi mới và phát triển các sản phẩm mới. Với xu hướng học máy đang bùng nổ và áp lực tự duy trì để hành động nhanh chóng và "xây dựng" mọi thứ, các tập đoàn công nghệ lớn luôn cần những người xây dựng. Kết quả là, kỹ sư phần mềm đã trở thành một nguồn nhân lực được săn đón, chiếm ưu thế về số lượng và gây ra cuộc đua thầu giữa các công ty. Tuy nhiên, khi tham vọng về machine learning ngày càng lớn, nhu cầu về dữ liệu cũng tăng theo, biến các vấn đề tập trung vào kỹ thuật thành các vấn đề liên ngành. Các dự án tạo ra dữ liệu mơ hồ cao – như biểu cảm khuôn mặt cho theo dõi khuôn mặt – đòi hỏi sự hiểu biết về dữ liệu vượt ra ngoài phạm vi kỹ thuật; chúng yêu cầu sự kết hợp liên ngành giữa kỹ thuật và lĩnh vực bổ trợ được áp dụng. Do đó, các công ty công nghệ cần phải chịu trách nhiệm về tính toàn vẹn của dữ liệu bằng cách tích hợp các chuyên gia lĩnh vực vào quá trình phát triển sản phẩm.
Mặc dù việc ưu tiên các vị trí không thuộc lĩnh vực kỹ thuật không phải là truyền thống của các tập đoàn công nghệ lớn, các ngành công nghiệp khác vẫn nhận thức được tầm quan trọng của chuyên môn sâu trong lĩnh vực học máy. Ví dụ, ngành công nghệ sinh học phụ thuộc vào sự hợp tác giữa các chuyên gia y tế và các chuyên gia kỹ thuật. và Kỹ sư. Trong trường hợp này, nhu cầu hợp tác là rõ ràng, nhưng trong các lĩnh vực chuyên môn ít được biết đến hơn, nhu cầu này không phải lúc nào cũng rõ ràng. Như đã đề cập trước đó, một lĩnh vực chính đang gặp phải sự thiếu hiểu biết và mơ hồ là theo dõi khuôn mặt. Các trường hợp sử dụng phổ biến của theo dõi khuôn mặt – bao gồm bộ lọc khuôn mặt, phát hiện đặc điểm cho quảng cáo sản phẩm (ví dụ: phát hiện môi để thử nghiệm sản phẩm son môi hoặc phát hiện mắt để thiết kế kính) và avatar – tương đối vô hại. Tuy nhiên, khi xem xét các trường hợp sử dụng ít "dễ thương" hơn như phát hiện cảm xúc, giám sát hành vi và phát hiện gian lận trong hệ thống tư pháp hình sự, ngành bảo hiểm hoặc lĩnh vực an ninh mạng – hiệu suất của mô hình học máy trở nên gây tranh cãi; và nếu thực hiện sai cách, nó có thể trở nên nguy hiểm. Đã có nhiều vấn đề đã được biết đến về công nghệ nhận diện khuôn mặt và việc sử dụng không được quy định của nó trong các quốc gia và ngành công nghiệp khác nhau. Vì theo dõi biểu cảm khuôn mặt không chỉ đơn thuần nhận diện một người, mà còn quan sát và đưa ra kết luận về hành vi của người đó, nó có khả năng xâm phạm quyền riêng tư cao hơn nhiều.
Mặc dù dữ liệu biểu cảm có vai trò quan trọng đối với việc theo dõi khuôn mặt, các công ty công nghệ lớn thường không ưu tiên chất lượng dữ liệu biểu cảm. Các nhà quản lý sản phẩm, quản lý kỹ thuật, nhà nghiên cứu người dùng và kỹ sư phần mềm thường dựa vào hiểu biết bề ngoài và các tìm kiếm tạm thời của riêng mình thay vì tận dụng kiến thức chuyên sâu mà một chuyên gia có thể cung cấp. Trong khi kỹ sư phần mềm là chuyên gia trong việc tạo ra các thuật toán, họ thường chỉ có kiến thức sơ bộ về dữ liệu. Do khối lượng công việc áp lực cao và tập trung vào kiến thức chuyên môn của mình, các kỹ sư không thể phát triển thêm chuyên môn trong việc phân tích dữ liệu biểu cảm phức tạp hoặc nắm vững các khái niệm phức tạp trong nghiên cứu cảm xúc.
Xác định loại dữ liệu cần thiết, cách thu thập dữ liệu và cách gắn nhãn cho dữ liệu là một quá trình tinh tếNếu bạn chọn nhắm mục tiêu vào dữ liệu sai, việc thu thập hoặc gắn nhãn dữ liệu đó tốt đến đâu cũng không quan trọng. Nếu bạn nhắm mục tiêu vào dữ liệu hữu ích nhưng thu thập nó không đúng cách, nó cũng sẽ thất bại. Nó sẽ thất bại một lần nữa nếu bạn không gắn nhãn nó một cách chính xác và/hoặc chính xác. Do sự khác biệt về cấu trúc giải phẫu của các đặc điểm khuôn mặt, sự thiên vị nội tại trong việc diễn giải biểu cảm, và tranh cãi giữa các nhà nghiên cứu cảm xúc và các nhà giải phẫu học khuôn mặt, bất kỳ nhóm nào phát triển thuật toán theo dõi khuôn mặt với mục đích vượt ra ngoài việc thử nghiệm trước khi mua son môi đều phải chấp nhận trách nhiệm và nghĩa vụ đạo đức đối với tính toàn vẹn của dữ liệu.
Thay vì đảm bảo rằng các thành phần cơ bản của thuật toán của họ được những người sử dụng hiểu rõ, tình trạng đáng lo ngại của các tập đoàn công nghệ lớn là thu thập hoặc mua lại lượng dữ liệu khổng lồ và chuyển giao cho các nhà đánh giá dữ liệu bên thứ ba. Các nhà đánh giá này thường được thuê ngoài, làm việc theo hợp đồng và hầu như luôn bị đánh giá thấp. Để giám sát chất lượng nhãn, tiêu chuẩn là tạo ra và áp dụng các Chỉ số Hiệu suất Chính (KPIs), nhưng vì Big Tech không đầu tư nguồn lực vào những người có thể giám sát chất lượng dữ liệu một cách hợp pháp, các KPIs thường mang tính tùy tiện và ít giá trị. Vấn đề càng trầm trọng hơn khi các kỹ sư không được trang bị kiến thức sâu sắc để xác định sự thật cơ bản, vậy họ thực sự đang đo lường điều gì? Đó là học máy không giám sát. Và sau đó là kỹ thuật không giám sát.
Khi làm việc cho một trong năm công ty lớn nhất tại Thung lũng Silicon, tôi thường xuyên ngạc nhiên trước thái độ thờ ơ của đồng nghiệp đối với dữ liệu theo dõi khuôn mặt phức tạp. Mặc dù các đồng nghiệp của tôi là những chuyên gia hàng đầu trong lĩnh vực phát triển thuật toán, họ lại có kiến thức hạn chế về giải phẫu khuôn mặt, khái niệm cảm xúc cơ bản và hành vi biểu cảm. Giống như bất kỳ lĩnh vực chuyên môn cao nào khác, việc hiểu rõ những sắc thái của biểu cảm con người đòi hỏi nhiều năm nghiên cứu và kinh nghiệm thực tiễn. Mặc dù tôi là chuyên gia về biểu cảm khuôn mặt, người đã dành cả cuộc đời và sự nghiệp để nghiên cứu những chi tiết tinh tế của khuôn mặt con người, tôi thường xuyên bị loại khỏi các cuộc họp quan trọng và các phiên lập kế hoạch. Tôi thường bắt gặp đồng nghiệp vội vàng lục lọi các trang tham khảo biểu cảm lỗi thời và không chính xác (điều mà tôi hiện đang... Cung cấp các giải pháp mới cho khu vực này.Trong quá trình cố gắng ghép nối một kế hoạch đường ống dữ liệu, chuyên môn của tôi thường bị giới hạn trong vai trò giám sát, và kỹ năng của tôi bị sử dụng sai mục đích cho các tác vụ không liên quan như phân loại kiểu râu và màu tóc. Khi tôi chỉ ra các xu hướng không nhất quán trong dữ liệu hoặc dự đoán các vấn đề phần cứng, tôi bị gọi vào và được giảng giải về "cách hoạt động của machine learning."
Tôi thấy nhiều tin tuyển dụng yêu cầu X năm kinh nghiệm trong lĩnh vực theo dõi khuôn mặt, nhưng chỉ yêu cầu kinh nghiệm liên quan là chưa đủ. Giống như việc một kỹ sư từng làm việc trong lĩnh vực công nghệ y tế không đủ điều kiện để trở thành một bác sĩ, việc chỉ có kinh nghiệm làm việc với công nghệ theo dõi không đủ để một kỹ sư trở thành chuyên gia về biểu cảm khuôn mặt hoặc cảm xúc. Nếu có sự tập trung hơn vào việc tuyển dụng các chuyên gia phù hợp, có thể việc tìm kiếm kỹ sư có kinh nghiệm hiếm và cụ thể sẽ được giảm bớt; sự giảm bớt này có thể tạo điều kiện cho sự hợp tác sáng tạo hơn giữa kỹ thuật và các lĩnh vực bổ sung mà nó có thể kết hợp.
Sự tập trung mù quáng vào kỹ thuật của các tập đoàn công nghệ lớn là một thói quen thiếu trách nhiệm cần phải thay đổi. Mặc dù các kỹ sư phần mềm thực sự là yếu tố thiết yếu trong quá trình học máy, nhưng tham vọng về học máy đã đưa chúng ta đến một điểm mà chúng ta phải nhận ra nhu cầu về hành động liên ngành. Dữ liệu cho các hệ thống phụ thuộc vào những chi tiết nhỏ nhặt không nên được coi nhẹ – đặc biệt khi chúng tiềm ẩn nguy cơ bị sử dụng cho các trường hợp xâm phạm quyền riêng tư. Nếu các công ty đánh giá cao chuyên môn về dữ liệu với cùng sự tôn trọng và hỗ trợ như họ dành cho chuyên môn kỹ thuật, các thuật toán và Dữ liệu mà chúng được xây dựng từ đó sẽ toàn diện hơn và ít sai sót hơn. Thiếu hệ thống dữ liệu toàn diện sẽ khiến chúng ta phải đối mặt với các sản phẩm không được kiểm soát, dễ bị thiên vị. Sự mất cân bằng trong đầu tư, tập trung vào thuật toán và bỏ qua chất lượng dữ liệu, sẽ dẫn đến lãng phí nỗ lực kỹ thuật, sản phẩm thiếu sót và sự lan rộng của công nghệ không đạo đức.
Đừng đặt tất cả trứng vào một giỏ. Tuyển dụng một cách có trách nhiệm.
1 bình luận về “Big Tech’s Homogeneous Hiring Habits Are Harming Our Data”