Biến thể của viseme: Răng nghiến và giọng nói bị giảm âm

Bài viết này khám phá những khía cạnh phức tạp của công nghệ chuyển đổi âm thanh thành khuôn mặt, visemes và phát âm giọng nói – được viết từ góc nhìn của một... Chuyên gia về chuyển động khuôn mặt đang nghiên cứu công nghệ đồng bộ môi bằng trí tuệ nhân tạo (AI)..

Từ Âm thanh đến Khuôn mặt: Cuộc chiến thực sự đang diễn ra

Không có hình dạng miệng nào xác định một âm thanh ngôn ngữ cụ thể. Cách phát âm của chúng ta thay đổi với mỗi âm vị, âm tiết và từ mà chúng ta phát ra. Mặc dù chúng ta cố gắng đơn giản hóa các nghiên cứu về đồng bộ môi bằng cách gán các hình dạng chuẩn (hoặc visemes) đối với các nhóm âm vị, trong ý nghĩa tuyệt đối, hình dạng "đúng" không tồn tại. Hình dạng "đúng" luôn mang tính tương đối và phụ thuộc rất lớn vào một loạt điều kiện biến đổi phức tạp ngoài phạm vi đơn giản. ^{GHI CHÚ 1} Vấn đề về hiện tượng đồng phát âm. Đối với những người làm việc trong lĩnh vực hoạt hình khuôn mặt hoặc công nghệ chuyển đổi âm thanh thành khuôn mặt, thực tế này là một trong những thách thức lớn nhất trong việc tạo ra giọng nói chính xác và tự nhiên.

^{GHI CHÚ 1Mặc dù hiện tượng đồng phát âm không phải lúc nào cũng đơn giản, nhưng nó bắt đầu trở nên đơn giản hơn khi bạn đã tiếp xúc với những điều kiện phức tạp và khó lường khác ảnh hưởng đến quá trình phát âm.}

Gemma giao hàng với nụ cười gượng gạo trong tập 7 mùa 2

Một ví dụ điển hình về vấn đề viseme có thể được quan sát thấy trong Phí thôi việc Mùa 2, Tập 7, khi nhân vật được gọi là Gemma hỏi kẻ thù của mình:

“Bạn có thể nói chuyện như một người bình thường được không?”

Trong tiếng Anh Mỹ, dòng này có thể được phiên âm như sau:
Kən, làm ơn hãy nói chuyện như một người bình thường được không?

Diễn viên đóng vai Gemma, Dichen Lachman, cô ấy nói câu thoại của mình qua kẽ răng với phong cách phát âm cực kỳ nhẹ nhàng. (Để xem phong cách diễn xuất sôi nổi hơn của cô, hãy tham khảo bài phát biểu của cô trước mốc 47 giây.) Chúng ta cảm nhận được nỗi đau, sự tức giận và sự bực bội của cô, được kìm nén bởi hàm răng nghiến chặt và đôi môi hầu như không cử động. Một màn trình diễn tuyệt vời cho khán giả – nhưng là một ví dụ đáng lo ngại trong thực tế cho các nhà nghiên cứu về công nghệ chuyển đổi âm thanh thành khuôn mặt.

Từ cảm xúc đến âm lượng và tốc độ, các yếu tố ảnh hưởng đến hình dạng miệng khi nói dường như không có giới hạn. Mặc dù răng nghiến chặt và môi khép chặt của Gemma không ảnh hưởng đến độ rõ ràng về âm thanh của giọng nói, nhưng một người đọc môi sẽ gặp khó khăn trong việc giải mã lời nói của cô. Phong cách phát âm của cô làm thay đổi đáng kể hình dạng dự kiến của nhiều nguyên âm và phụ âm.

Phoneme và Viseme: Nhìn sâu hơn

Dưới đây là đoạn video đã được ổn định của bài phát biểu của Gemma, nhấn mạnh những hình dáng môi đối lập nhất của cô. ^{GHI CHÚ 2}. Hãy quan sát cách mà, mặc dù là những hình dạng tương phản nhất, nhiều trong số chúng không thể phân biệt được và không đáp ứng được các đặc điểm mong đợi của các viseme tương ứng.

^{GHI CHÚ 2: Không phải tất cả các âm vị trong lời nói của Gemma đều được ghi lại ở đây. Nhiều âm vị đã bị bỏ qua vì chúng không thể phân biệt được về mặt thị giác với các âm thanh xung quanh.}

Dưới đây là cùng một tập hợp các âm vị từ đoạn clip ở trên và các hình ảnh tĩnh tương ứng của chúng. Di chuột qua từng hình ảnh để xem bối cảnh ký tự cho từng viseme.

Âm /p/, /b/ và /m/ làm điểm neo

Khi đánh giá cả đoạn video và hình ảnh tĩnh từ phần trình diễn của Lachman, có thể thấy rõ rằng các âm bilabial đóng môi truyền thống – /p/, /b/ và /m/ – vẫn đóng môi đúng như yêu cầu. Ngoài ra, có thể quan sát thấy sự gia tăng nhẹ về độ rộng của góc môi khi phát âm /i/, cùng với sự tròn môi gần như hoàn hảo khi phát âm /u/.

Nhìn chung, trong khi các dạng viseme dự kiến của các âm vị so với các dạng thực tế mà chúng thể hiện ra rất đa dạng, một số nhóm âm vị lại khắt khe hơn và đòi hỏi một sự sắp xếp cứng nhắc hơn về vị trí của các cơ phát âm. Nếu bạn đang làm việc trong lĩnh vực hoạt hình khuôn mặt hoặc nghiên cứu chuyển đổi âm thanh thành khuôn mặt, bạn có thể đã quen thuộc với tính ổn định của /p/, /b/ và /m/. /p/, /b/ và /m/ thường được phân loại vào cùng một nhóm viseme: hình dạng môi đóng. /p/, /b/ và /m/ là những điểm tham chiếu tuyệt vời khi đánh giá chất lượng và độ chính xác của giọng nói mô phỏng. Chúng ta yêu thích chúng vì chúng luôn đóng, đúng không? …Đúng không?

Âm /p/, /b/ và /m/: Sự thật khó khăn

Rất tiếc, mặc dù các âm môi khép kín có thể là điểm neo tuyệt vời, ngay cả những âm vị mạnh mẽ nhất cũng không tránh khỏi sự biến đổi. Hãy mở một video của Mr. Beast (hay nên gọi là Nr. Veast) và chứng kiến thế giới của bạn sụp đổ khi môi của Veast không thể đóng lại trong phần lớn các âm /p/, /b/ và /m/. Ɱr. Veast là một người đam mê labiodentalization. (Đọc thêm về labiodentalization) đây và đây).

Bạn có thể muốn lập luận rằng nếu môi không khép kín, âm đó không được coi là /p/, /b/ hoặc /m/; tuy nhiên, tình trạng môi không khép kín hoàn toàn không làm mất đi tính phân biệt âm vị của p, b hoặc m, và nó không ngăn cản chúng ta nhận biết chúng là p, b hoặc m. Thực tế, các phiên bản không đóng hoàn toàn này chỉ là những biến thể phổ biến. các âm vị khác nhau của /p/, /b/ và /m/.

Đọc phần phân tích sau đây từ Wikipedia:

“…[ɱ] là âm vị cực kỳ phổ biến trên toàn thế giới về mặt ngữ âm, vì nó là âm vị biến thể phổ quát của /m/ và là âm vị biến thể rất phổ biến của /n/ trước các âm ma sát môi-răng [f] và [v], như trong tiếng Anh "comfort" và "circumvent", và đối với nhiều người, "infinitive" và "invent".“

“Âm [p̪͡f] xuất hiện thỉnh thoảng trong tiếng Anh, trong các từ mà một âm tiết kết thúc bằng 'p' và âm tiết tiếp theo bắt đầu bằng 'f', như trong 'helpful' hoặc 'stepfather'.“

Giai đoạn 5: Chấp nhận

Mặc dù các visemes đáng tin cậy nhất không đáng tin cậy như nhiều người vẫn nghĩ, nhưng hy vọng vẫn chưa hoàn toàn tan biến. Một khi bạn học cách đối mặt với FACS, tức là đối mặt với sự thật, và chấp nhận rằng... Sự hỗn loạn của hành vi con người và cơ chế hoạt độngGiải mã những phức tạp như đám mây của chúng ta có thể thật thú vị. Hãy kết thúc bằng một trích dẫn đầy ý nghĩa từ nhà thần kinh học, nhà linh trưởng học và giảng viên nổi tiếng, Robert Sapolsky:

Nhiều tài nguyên về hát nhép hơn

Để xem các ví dụ cứng nhắc và có tính chất đồng hồ hơn về visemes, hãy xem bài viết của tôi:

Đối với những ai đang tìm kiếm các phương pháp mang tính đám mây hơn, tôi Tất tần tật về Lipsync Khóa học đi sâu vào sự phức tạp của quá trình phát âm từ góc độ giải phẫu học, ngôn ngữ học và góc nhìn thân thiện với hoạt hình, bao gồm:

Sự biến đổi trong giọng nói con người (vượt ra ngoài các bảng IPA)
Nền tảng ngôn ngữ học
Cấu trúc giải phẫu của cơ quan phát âm (hàm, môi, lưỡi, răng)
Phối âm và các trường hợp đặc biệt
Tại sao các viseme “chuẩn” không hoạt động?
Cách thiết kế hệ thống giọng nói mô-đun
Lời nói so với cảm xúc (cách chúng có thể cản trở hoặc hòa hợp)
Visemes, FACS và công thức blendshape linh hoạt