ARKit và các lỗi theo dõi khuôn mặt khác

Tại sao nhiều công cụ theo dõi khuôn mặt và avatar lại gặp phải vấn đề nhầm lẫn khi phát hiện nếp nhăn trên trán? Bằng cách phân tích trường hợp của Apple's ARKit, bài phân tích này đi sâu vào nguyên nhân gốc rễ của vấn đề và tiết lộ một giải pháp đơn giản đến bất ngờ ở phần kết. 

Avatar & Biểu tượng cảm xúc: Phiên bản Memoji

Sai sót "giảm trán giả" là một vấn đề phổ biến trong công nghệ theo dõi khuôn mặt và hoạt hình avatar. Mặc dù khá tinh tế, những lỗi này có thể làm biến dạng biểu cảm của avatar, gây ra các tín hiệu không mong muốn như buồn bã, giận dữ hoặc lo lắng. Trong video dưới đây, tôi đã thử nghiệm tính năng Memoji của Apple để minh họa vấn đề này trong thực tế.

 

Trong đoạn video trên, hãy quan sát cách Memoji của tôi "phản chiếu" nụ cười của tôi. Bạn có nhận thấy điều gì kỳ lạ hoặc không thoải mái không? Góc trong của lông mày tôi bị hạ xuống một cách sai lệch. Việc hạ lông mày một cách sai lệch này vẫn tồn tại trong các loại nụ cười khác nhau. Nó cũng xuất hiện ở người dùng khác.

Lông mày trong hạ thấp kết hợp với môi trên nhô lên (do) Người nhăn mũi hoặc Cơ nâng môi trên) thường được liên kết với những cảm xúc tiêu cực. Đầu lông mày hạ xuống cũng có mối tương quan nghịch với nụ cười. Những lỗi theo dõi có ý nghĩa ngữ nghĩa này có thể vô tình gợi ý cảm xúc tiêu cực.

Những sai lầm này xảy ra như thế nào?

Kết quả dương tính giả trong việc hạ lông mày thường xuất phát từ các vấn đề về chất lượng dữ liệu, lỗi ghi nhãn và sự lựa chọn nghệ thuật. Dưới đây là lý do tại sao những vấn đề này vẫn tồn tại:

  1. Không có đủ sự chú trọng vào chất lượng dữ liệu.
  2. Không có đủ sự chú trọng vào nghệ thuật.

Ở mọi nơi tôi đã làm việc, luôn có rất nhiều lo ngại về việc tuyển dụng kỹ sư có nền tảng chuyên môn cụ thể. Số lượng nhân viên được điều chuyển khỏi các vị trí quan trọng khác.

Nhiều nhà lãnh đạo kỹ thuật cho rằng nếu họ thu thập đủ dữ liệu để đào tạo mô hình, các vấn đề về chất lượng sẽ tự động được giải quyết. Wow! Phép màu. Giả định này thường dựa trên một niềm tin sai lầm khác rằng chỉ có một tỷ lệ rất nhỏ dữ liệu không sạch.

Tôi đã dành nhiều thời gian nghiên cứu sâu về dữ liệu và đã trải qua hầu hết các vị trí không liên quan đến kỹ thuật trong lĩnh vực theo dõi khuôn mặt:

  • Lập kế hoạch dữ liệu – Xác định loại dữ liệu biểu hiện cần thu thập và phương pháp thu thập.
  • Thu thập dữ liệu – Thực sự làm việc với các tham gia viên và đào tạo họ để tạo ra các tư thế biểu cảm chính xác.
  • Ghi chú dữ liệu – Xác định các phương pháp tốt nhất để đánh dấu các điểm tham chiếu.
  • Phân loại dữ liệu – Tư vấn cho bộ phận kỹ thuật về các lớp (class) cần tồn tại, các thông số (parameter) của chúng và cách xử lý các trường hợp ngoại lệ (edge cases) không thể tránh khỏi.
  • Mở rộng quy mô – Đảm bảo các quy tắc về chú thích và phân loại được tiêu chuẩn hóa và dễ hiểu đối với các nhà chú thích quy mô lớn.
  • theo dõi và giám sát – So sánh kết quả thực tế với kết quả theo dõi
  • Xác định các lĩnh vực cần cải thiện – Xác định các vấn đề hiện có và cách cải thiện chúng thông qua lập kế hoạch, thu thập, chú thích và/hoặc phân loại.
  • Phát triển avatar – Xác định chiến lược ưu tiên các hình dạng dựa trên sự kết hợp của các yếu tố như –
    • Nơi trình theo dõi không hoạt động
    • Các trường hợp sử dụng cuối cùng của sản phẩm là gì?
    • Điều gì sẽ mang lại vẻ đẹp thẩm mỹ nhất?
    • Điều gì là quan trọng nhất về mặt ngữ nghĩa?

Với nền tảng kiến thức về khoa học biểu cảm, giải phẫu khuôn mặt và kinh nghiệm làm việc sâu rộng với dữ liệu khuôn mặt, tôi có thể khẳng định rằng dữ liệu không chính xác là một vấn đề nghiêm trọng trong công nghệ theo dõi khuôn mặt, chứ không phải là một vấn đề nhỏ. Nói tóm lại, ngay cả khi thuật toán hoàn hảo, các vấn đề vẫn phát sinh từ:

Dữ liệu được tạo ra không chính xác

  • Khi thu thập dữ liệu biểu cảm được tạo dáng từ người tham gia, dữ liệu luôn bị nhiễm. Đảm bảo.
  • Hầu hết mọi người không thể thực hiện chính xác mọi biểu cảm mục tiêu. Rất hiếm khi tìm thấy dữ liệu biểu cảm khuôn mặt thuần túy. Khi người tham gia thực hiện các biểu cảm không thuần túy, điều này có thể do họ đang thể hiện sai biểu cảm khuôn mặt hoặc do họ không thể tách biệt biểu cảm mục tiêu mà không sử dụng các cơ mặt không liên quan đến mục tiêu.
  • Để tóm lại, các chuyên viên thu thập dữ liệu thường không thể xác định liệu người tham gia có đạt được biểu hiện mục tiêu hay không. Sự thiếu hụt kiến thức này không phải lỗi của các chuyên viên thu thập dữ liệu, mà là do ưu tiên sai lầm và sự thiếu quan tâm của Công ty X trong việc tuyển dụng hoặc giữ chân nhân tài phù hợp.

Gán nhãn dữ liệu sai

  • Do sự tập trung quá mức vào nhân tài kỹ thuật, các công ty thường bỏ qua việc ưu tiên các vị trí liên quan đến việc gắn nhãn dữ liệu. Thay vào đó, công việc gắn nhãn dữ liệu thường được xem là các vị trí cấp thấp, dành cho các nhà thầu không có chuyên môn đặc biệt.
  • Những nhà thầu mới vào nghề với ít kinh nghiệm có thể dần dần trở nên thành thạo với dữ liệu để đạt được chuyên môn; tuy nhiên, điều này hiếm khi xảy ra, vì các vị trí dán nhãn hợp đồng thường có tỷ lệ luân chuyển nhân sự cao.

Lựa chọn nghệ thuật thiếu thông tin

  • Đối với nghệ thuật, việc hiểu công nghệ là quan trọng, và đối với công nghệ, việc hiểu nghệ thuật cũng quan trọng không kém. Hiện nay, tồn tại một khoảng cách đáng kinh ngạc giữa nghệ thuật và kỹ thuật trong các công ty công nghệ. Trong nhiều trường hợp, các công cụ theo dõi (trackers) trông đẹp mắt không phải do bản thân chúng, mà là nhờ những lựa chọn nghệ thuật được áp dụng để khắc phục những hạn chế kỹ thuật chưa hoàn thiện phía sau. Cần đầu tư nhiều nguồn lực hơn để thu hẹp khoảng cách giữa nghệ thuật và kỹ thuật.

Trở lại Memoji & Hiện tượng nhầm lẫn khi hạ lông mày

Như đã đề cập ở đầu bài viết này, mỗi khi Memoji cố gắng sao chép nụ cười của tôi, có một chi tiết thừa là hạ lông mày ở góc trong của lông mày. Lại một lần nữa, chi tiết này vẫn xuất hiện trong nhiều loại nụ cười khác nhau.

Biểu đồ dưới đây là một ví dụ về cách tương tác giữa chất lượng dữ liệu và nghệ thuật có thể ảnh hưởng tiêu cực đến các biểu cảm khác nhau và gây ra các vấn đề như hạ lông mày khi cười.

LƯU ÝTất nhiên, có thể có nhiều nguyên nhân tiềm ẩn, bao gồm cả vấn đề liên quan đến thuật toán; tuy nhiên, bản tóm tắt này được lập ra để làm nổi bật một tình huống cụ thể với một bộ điều kiện cụ thể.

Sơ đồ các vấn đề về theo dõi khuôn mặt và avatar sử dụng các hình dạng FACS

Phân tích chi tiết

Người nhăn mũi và nhấc môi trên là hai hành động khuôn mặt trông giống nhau.

  • Chúng thường bị nhầm lẫn với nhau ở cả hai cấp độ thu thập dữ liệu và gắn nhãn dữ liệu.
  • Vì các công ty công nghệ không đầu tư đủ vào chất lượng dữ liệu, họ thường không tạo điều kiện cho nhân viên có khả năng xác định chính xác hoặc giải thích cách phân biệt. Người nhăn mũiCơ nâng môi trên.
  • Sai só trong cả quá trình thu thập dữ liệu và gắn nhãn dữ liệu thường không được phát hiện, và nhân viên có chuyên môn không thể phát hiện các lỗi theo dõi.

Một kỹ thuật phổ biến trong nghệ thuật là sử dụng Cơ nâng môi trên Như một phụ kiện hình dạng kết hợp cho nụ cười.

  • Vì hành động của cơ kéo góc môi làm nâng môi trên khi nụ cười trở nên mãnh liệt, nhiều người cho rằng động tác này đồng nghĩa với Thiết bị nâng môi trên. Không hẳn là đơn giản như vậy.
  • Nhiều nghệ sĩ sử dụng Cơ nâng môi trên Hình dạng để kết hợp với Dụng cụ kéo góc môi Để tạo nụ cười rạng rỡ. Chi tiết thêm tại đây.
  • Bỏ qua các vấn đề về thẩm mỹ và độ chính xác, một vấn đề nghiêm trọng vẫn còn tồn tại: Nếu Cơ nâng môi trên liên quan đến Người nhăn mũi, Khi một nụ cười tươi tắn được bắt đầu, nó sẽ kích hoạt Cơ nâng môi trên, sẽ kích hoạt Người nhăn mũiDo đó, khi ai đó cười, lông mày của họ sẽ hạ xuống. Xấu.

Chất lượng dữ liệu không được quan tâm đủ.
Nghệ thuật không được đánh giá cao như nó đáng được.

Khắc phục sự cố

Giải pháp đơn giản nhất? Hãy bỏ qua FACS và tập trung vào giải phẫu khuôn mặt. Giải pháp đơn giản nhất để giảm tình trạng nhầm lẫn dáng mày hạ thấp do Người nhăn mũiCơ nâng môi trên Là để tôn vinh các đặc tính của các cơ bắp nằm sau các hành động này.

Từ góc độ giải phẫu, cả hai cơ nâng mí mắt trên (levator palpebrae superioris)Cơ nâng môi trên cơ) cũng như cơ nâng mí mắt trên và cánh mũi (Người nhăn mũi Cơ (cơ) làm hạ lông mày. Chỉ trong phạm vi các quy tắc mã hóa khuôn mặt FACS, việc hạ lông mày mới được liên kết với việc nhăn mũi. 

Bạn có thể tránh được rắc rối nếu chỉ cần:

  1. Tái thiết kế quy tắc phân loại nhãn để phân loại "nâng lông mày" thành một hành động riêng biệt so với Người nhăn mũi
  2. Tái thiết kế các hình dạng pha trộn để chứa một Người nhăn mũi không có sự hạ thấp lông mày một cách tự nhiên

Viết một bình luận

Trang web này sử dụng Akismet để giảm spam. Tìm hiểu cách dữ liệu bình luận của bạn được xử lý.

Được thiết kế cho các studio và đội ngũ

Hãy nói chuyện.

facetheFACS@melindaozel.com