왜 그렇게 많은 페이스 트래커와 아바타에서 눈썹이 내려가는 오탐지 문제가 발생하나요? 이 분석에서는 Apple의 ARKit을 사례 연구로 사용하여 문제의 근원을 살펴보고 마지막에 놀랍도록 간단한 해결책을 제시합니다.
아바타 및 스마일: 이모티콘 에디션
얼굴 추적 및 아바타 애니메이션에서 눈썹이 내려가는 오탐은 널리 퍼져 있는 문제입니다. 이러한 오류는 미묘하지만 아바타의 표정을 왜곡하여 의도하지 않은 슬픔, 분노, 걱정 등의 신호를 유발할 수 있습니다. 아래 동영상에서는 이 문제가 실제로 어떻게 나타나는지 Apple의 메모지를 스트레스 테스트해 보았습니다.
위 영상에서 내 미소가 어떻게 이모티콘에 '미러링'되는지 관찰해 보세요. 이상하거나 불쾌한 점이 보이나요? 내 눈썹 안쪽 모서리가 잘못 내려가 있습니다. 다양한 유형의 미소에서도 눈썹이 잘못 내려가는 현상이 지속됩니다. 다른 사용자들에게도 이러한 현상이 지속됩니다.
눈썹 안쪽이 내려가고 윗입술이 올라간 경우( 코 링클러 또는 윗입술 올리기)는 종종 불쾌한 감정과 관련이 있습니다. 눈썹 끝이 내려간 것도 미소와 음의 상관관계가 있습니다. 이러한 유형의 의미적으로 중요한 추적 실수는 의도치 않게 부정적인 감정을 암시할 수 있습니다.
이러한 실수가 발생하는 이유
눈썹을 낮추는 오탐은 데이터 품질, 라벨링 오류, 예술적 선택 등의 문제에서 비롯되는 경우가 많습니다. 이러한 문제가 지속되는 이유는 다음과 같습니다:
- 데이터 품질에 대한 집중이 충분하지 않습니다.
- 예술에 대한 집중이 충분하지 않습니다.
제가 일했던 모든 곳에서 특정 배경을 가진 엔지니어를 채용하는 것에 대한 우려가 너무 많았습니다. 인력을 다른 필수 역할에 빼앗기게 됩니다.
많은 기술 책임자들은 모델 학습을 위한 충분한 데이터를 확보하면 품질 문제가 저절로 해결될 것이라고 생각합니다. 와우! 마법 같죠. 이러한 가정은 종종 불완전한 데이터의 비율은 무시할 수 있을 정도로 적을 것이라는 잘못된 믿음 아래 작동합니다.
저는 데이터 참호 깊숙이 들어가서 얼굴 추적과 관련된 거의 모든 비엔지니어링 직무를 수행했습니다:
- 데이터 계획 - 수집할 표현식 데이터의 유형과 수집 방법을 결정합니다.
- 데이터 수집 - 실제로 참가자와 함께 작업하고 올바른 표정 포즈를 취하도록 훈련합니다.
- 데이터 어노테이션 - 랜드마크에 라벨을 붙이는 가장 좋은 방법 결정하기
- 데이터 분류 - 어떤 클래스가 존재해야 하는지, 해당 매개 변수가 무엇인지, 불가피한 에지 케이스를 처리하는 방법에 대해 엔지니어링에 조언합니다.
- 확장 - 주석 및 분류 규칙이 표준화되고 대규모 라벨 제작자가 이해하기 쉬운지 확인합니다.
- 모니터링 추적 - 지상 실측과 추적 결과 비교
- 개선이 필요한 영역 식별 - 계획, 수집, 주석 및/또는 분류를 통해 어떤 문제가 존재하고 어떻게 개선할 수 있는지 파악합니다.
- 아바타 개발 - 다음과 같은 여러 가지 고려 사항을 바탕으로 우선순위를 정할 모양을 전략화합니다.
- 트래커가 실패하는 경우
- 최종 제품 사용 사례
- 가장 미학적으로 만족스러운 것
- 의미론적으로 가장 중요한 것
표정 과학, 얼굴 해부학, 얼굴 데이터에 대한 광범위한 작업을 해온 저는 얼굴 추적에서 불순한 데이터는 사소한 문제가 아니라 중요한 문제라고 자신 있게 말할 수 있습니다. 즉, 알고리즘이 완벽하더라도 문제가 발생할 수 있습니다:
불순한 포즈 데이터
- 사람 참가자로부터 포즈 데이터를 수집할 때, 데이터는 항상 오염될 수 있습니다. 보장됩니다.
- 대부분의 사람이 모든 표정을 맞출 수는 없습니다. 순수한 얼굴 동작 데이터를 찾는 것은 드뭅니다. 참가자가 불순한 표정을 짓는 것은 잘못된 표정을 짓거나 타겟이 아닌 얼굴 근육을 추가로 사용하지 않고는 타겟 표정을 분리할 수 없기 때문입니다.
- 무엇보다도 데이터 수집 담당자는 참가자가 목표 표현을 제대로 맞추고 있는지조차 알 수 없는 경우가 많습니다. 이러한 지식 부족은 데이터 수집 담당자의 잘못이라기보다는 회사 X의 잘못된 우선순위와 올바른 인재를 채용하거나 유지하는 데 대한 관심 부족에 기인합니다.
불량 데이터 라벨링
- 엔지니어링 인재에 지나치게 집중하다 보니 기업들은 데이터 라벨링 역할에 우선순위를 두지 않는 경우가 많습니다. 그 대신, 주석 작업은 특별한 전문 지식이 없는 계약직이 맡는 낮은 수준의 직책으로 취급되는 경우가 많습니다.
- 경험이 거의 없는 상태에서 시작하는 계약자는 결국 데이터에 충분히 익숙해져 전문성을 확보할 수 있지만, 계약 라벨링 역할은 일반적으로 이직률이 높기 때문에 이런 경우는 거의 발생하지 않습니다.
정보에 기반하지 않은 아트 선택
- 예술이 기술을 이해하고, 기술이 예술을 이해하는 것은 중요합니다. 기술 기업 내에는 예술과 엔지니어링 사이에 엄청난 단절이 존재합니다. 많은 경우, 좋은 트래커는 트래커 자체 때문이 아니라 그 이면에 있는 미숙한 기술을 극복하기 위한 예술적 선택이 있었기 때문에 좋은 트래커로 보일 수 있습니다. 예술과 공학의 간극을 메우는 데 더 많은 리소스를 투자해야 합니다.
메모지 및 오탐 눈썹 낮추기로 돌아가기
이 글의 시작 부분에서 언급했듯이, 메모지가 제 미소를 비추려고 할 때마다 눈썹 안쪽 모서리에 불필요하게 눈썹이 내려가는 현상이 나타납니다. 다시 말하지만, 이 추가는 다양한 유형의 미소에서도 지속됩니다.
아래 차트는 데이터 품질과 아트 간의 상호 작용이 다양한 표정에 부정적인 영향을 미치고 웃을 때 눈썹이 내려가는 등의 문제를 일으킬 수 있음을 보여주는 예시입니다.
참고: 물론 알고리즘 자체의 문제를 포함하여 여러 가지 잠재적 원인이 있을 수 있지만, 이 개요는 특정 조건이 있는 특정 시나리오를 강조하기 위해 작성되었습니다.
분석하기
코 주름 및 윗입술 올리기 는 비슷해 보이는 두 가지 표정 동작입니다.
- 데이터 수집 수준과 데이터 라벨링 수준 모두에서 서로 혼동되는 경우가 많습니다.
- 기술 기업은 데이터 품질에 제대로 투자하지 않기 때문에 일반적으로 데이터 품질을 정확하게 식별하거나 차별화 방법을 설명할 수 있는 직원을 육성하지 않습니다. 코 링클러 그리고 윗입술 올리기.
- 데이터 수집과 데이터 라벨링의 실수는 눈에 띄지 않게 되고, 인재는 추적 오류를 포착하지 못합니다.
예술 분야에서 흔히 사용되는 기법은 윗입술 올리기 를 콤보 모양 추가 기능으로 사용할 수 있습니다.
- 입꼬리 당기는 동작은 미소를 지을 때 윗입술을 들어올리는 동작이기 때문에 많은 사람들이 이 동작을 다음과 같은 의미로 생각합니다. 윗입술 올리기. 그렇게 간단하지 않습니다.
- 많은 아티스트가 윗입술 올리기 모양과 결합할 수 있습니다. 립 코너 풀러 를 사용하여 강렬한 미소를 연출할 수 있습니다. 자세한 내용은 여기를 참조하세요.
- 미관 및 정확성 문제는 차치하고서라도 눈에 띄는 문제가 남아 있습니다: 만약 윗입술 올리기 는 노즈 링클러, 강한 미소가 시작되면 활성화됩니다. 윗입술 올리기, 를 활성화하면 코 링클러. 따라서 누군가가 웃을 때 눈썹이 낮아집니다. 나쁜.
데이터 품질에 충분한 주의를 기울이지 않습니다.
예술에 충분한 크레딧이 주어지지 않습니다.
문제 해결
가장 간단한 해결책은? FACS에서 벗어나 얼굴 해부학에 기대세요. 다음을 통해 오탐을 줄이는 가장 쉬운 해결책은 코 링클러 그리고 윗입술 올리기 는 이러한 동작의 배후에 있는 근육의 특성을 존중하는 것입니다.
해부학적인 관점에서 볼 때, 상안검거근(윗입술 올리기 근육) 또는 상완골근(코 링클러 근육)이 눈썹을 내립니다. 눈썹을 내리는 것이 코 주름과 연관되어 있는 것은 FACS 얼굴 코딩 규칙의 범위 내에서만 가능합니다.
간단하게 하면 골치 아픈 일을 줄일 수 있습니다:
- 라벨링 규칙을 재설계하여 눈썹을 낮추는 동작을 다음과 별도의 동작으로 분류합니다. 코 링클러
- 블렌드 셰이프를 다시 디자인하여 코 링클러 눈썹을 내리지 않고