이 게시물에서는 오디오 대면 기술, 비젬 및 음성 관절의 복잡한 점을 살펴봅니다. 인공지능 립싱크 기술 개발에 종사하는 얼굴 동작 전문가.
오디오에서 얼굴로: 투쟁은 현실입니다
특정 발음 소리를 정의하는 단일한 입 모양은 존재하지 않습니다. 우리의 발음은 우리가 내뱉는 모든 음소, 음절, 단어에 따라 변화합니다. 비록 표준적인 모양(또는 비세메스)를 음소 그룹에 연결할 때 절대적인 의미에서 "올바른" 모양은 존재하지 않습니다. "올바른" 모양은 항상 상대적인 것이며, 단순한 참고 1 조음 문제. 얼굴 애니메이션이나 오디오 대 얼굴 기술 분야에서 일하는 사람들에게 이러한 현실은 정확하고 자연스러운 음성을 만드는 데 있어 가장 큰 어려움 중 하나입니다.
참고 1: 조음은 반드시 간단한 것은 아니지만, 조음에 영향을 미치는 복잡하고 예측할 수 없는 다른 조건의 현실에 노출되면 조음이 단순하게 느껴지기 시작합니다.
S02E07에서 젬마의 이빨 배달
비젬 문제의 완벽한 예는 다음에서 확인할 수 있습니다. 세브란스 시즌 2, 에피소드 7, 젬마라는 캐릭터가 적대자에게 물어보는 장면:
“제발 평범한 사람처럼 말해 줄 수 있겠어?”
미국 영어에서는 이 대사를 음성적으로 다음과 같이 표기할 수 있습니다:
더 많은 정보를 원하시나요?
젬마 역을 맡은 배우, 디첸 라흐만, 그녀는 이를 악물고 극도로 억제된 발음 스타일로 대사를 전달한다. (그녀의 더 생동감 넘치는 기본 모습을 보려면 47초 전 연설을 참조하라.) 우리는 그녀의 꽉 다문 턱과 최소한으로 움직이는 입술에 억눌린 고통, 분노, 좌절감을 느낀다. 시청자에게는 아름다운 연기지만, 음성-얼굴 연구자들에게는 골칫거리인 현실 사례다.
감정부터 음량과 속도까지, 말하기에서 입 모양에 영향을 미치는 요소는 끝이 없어 보입니다. 젬마의 이빨과 입술은 청각적 가독성에 영향을 미치지 않지만, 입술을 읽는 사람은 그녀의 말을 해독하기 어려울 것입니다. 그녀의 발음 스타일은 많은 모음과 자음의 예상 모양을 심각하게 바꿉니다.
음소 및 모음: 자세히 살펴보기
위는 젬마의 연설 중 가장 대조적인 입술 모양을 강조하는 안정화된 클립입니다. 참고 2. 가장 대조적임에도 불구하고 이러한 도형 중 상당수가 식별이 불가능하고 관련 비젬의 예상 특징을 충족시키지 못하는 것을 관찰하세요.
참고 2: 젬마의 연설에 나오는 모든 음소가 여기에 캡처된 것은 아닙니다. 주변 소리와 시각적으로 구분할 수 없기 때문에 많은 음소가 제외되었습니다.
아래는 위 클립의 동일한 음소 세트와 그에 해당하는 시각적 음소를 스틸 이미지로 보여줍니다. 각 사진 위로 마우스를 가져가면 각 비셈에 대한 그래픽 컨텍스트를 볼 수 있습니다.
앵커 포인트로 /p/의 /b/ 및 /m/의 사용
Lachman의 연기의 클립과 스틸 이미지를 모두 평가할 때, /피/, /비/, /미/와 같이 입술이 닫혀 있는 양순이 여전히 원래대로 닫혀 있음을 알 수 있습니다. 또한 /나는/의 경우 입술 모서리 폭이 약간 증가하고 /유/의 경우 거의 닫히다시피 반올림하는 것을 볼 수 있습니다.
일반적으로 예상되는 음소의 형태와 실제 음소가 취하는 형태는 매우 다양하지만, 일부 음소 그룹은 다른 음소 그룹보다 더 소란스럽고 조음기 위치가 더 엄격하게 배열되어 있습니다. 얼굴 애니메이션이나 오디오 대 얼굴 연구를 하고 있다면 /피/, /비/, /엠/의 견고함에 이미 익숙할 것입니다. /피/, /비/, /엠/은 일반적으로 같은 비젬 범주인 닫힌 입술 모양으로 분류됩니다. /p/, /b/, /m/는 시뮬레이션 음성의 품질과 정확성을 평가할 때 훌륭한 기준점이 됩니다. 항상 닫혀 있기 때문에 우리가 좋아하죠? ...그렇죠?
/p/의 /b/의 & /m/의: 어려운 진실
안타깝게도 입술이 닫힌 양순은 훌륭한 앵커 포인트가 될 수 있지만, 아무리 견고한 음소라도 변이에서 자유로울 수는 없습니다. 미스터 비스트(또는 미스터 비스트라고 해야 할까요?)를 열어 /피/, /비/, /엠/의 대부분에서 비스트의 입술이 닫히지 않아서 세상이 무너지는 것을 지켜보세요. Ɱr. 비스트는 열렬한 치경치화자입니다. (치조음화에 대해 자세히 알아보기 여기 그리고 여기).
입술이 닫히지 않으면 그 소리는 /p/, /b/ 또는 /m/로 간주되지 않는다고 주장하고 싶을 수도 있지만, 입술이 완전히 닫히지 않은 상황은 p, b 또는 m의 음소 지위를 빼앗지 않으며, 우리가 이를 p, b 또는 m으로 인식하는 것을 막지도 않습니다. 사실, 이러한 완전히 닫히지 않은 버전은 흔합니다. 알로폰 의 /피/, /비/, 그리고 /엠/.
위키백과에서 다음 내용을 읽어보세요:
“영어에서 [p̪͡f]라는 소리는 'helpful' 또는 '계부'와 같이 한 음절이 'p'로 끝나고 다음 음절이 'f'로 시작하는 단어에서 가끔 발생합니다.“
5단계: 수락
가장 신뢰할 수 있는 비젬은 널리 알려진 것만큼 신뢰할 수 없지만 모든 희망이 사라진 것은 아닙니다. 일단 FACS를 직시하는 법을 배우면, 즉 사실을 받아들이고 인간 행동과 역학의 혼돈클라우드와 같은 복잡성을 해독하는 것은 흥미진진한 일이 될 수 있습니다. 신경과학자, 영장류학자, 염소 강사가 들려주는 신랄한 한 마디로 마무리해 보겠습니다, 로버트 사폴스키:
더 많은 립싱크 자료
더 엄격하고 시계처럼 정확한 비즈메스 예시는 제 글을 참고하세요:
- 인간 발화의 변이성 (IPA 표를 넘어서는)
- 언어학적 기초
- 발음 기관의 해부학 (턱, 입술, 혀, 치아)
- 공동발음과 경계 사례
- 왜 “표준적인” 비즈메가 작동하지 않는가
- 모듈식 음성 시스템 설계 방법
- 언어 대 감정 (그들이 방해하거나 조화를 이루는 방식)
- 비즈메스, FACS 및 유연한 블렌드셰이프 공식