视觉变异:咬牙切齿与哑语

女性(《Severance》中的 Gemma)口中发音的序列以及她做出的唇形
女性(《Severance》中的 Gemma)口中发音的序列以及她做出的唇形

这篇博文从一个普通人的视角出发,探讨了音频到人脸技术、视觉和语音发音的复杂性。 面部动作专家,致力于人工智能口型同步技术的研究.

从声音到脸庞:斗争是真实的

没有单一的口型能定义特定的语音。我们的发音方式会随着每个音素、音节和词语的发声而变化。尽管我们试图通过设定标准口型(或 视觉从绝对意义上讲,"正确 "的形状并不存在。正确的 "形状总是相对的,在很大程度上取决于一系列可变条件,而不是简单的 注1 共同发音问题。对于那些从事面部动画或音频-面部技术工作的人来说,这一现实问题是创造准确自然的语音所面临的最大挑战之一。

注1:虽然共同发音并不一定简单,但当你接触到影响发音的其他复杂和不可预知的条件时,你就会开始觉得简单了。

杰玛在 S02E07 中咬牙切齿地传递信息

在以下作品中,我们可以看到对 "视觉 "问题的完美诠释 离职 第二季第 7 集,当被称为 Gemma 的角色问她的对手时:

“你能像正常人一样说话吗?”

在美式英语中,这句话可以音译为
Kən ju pliz ʤʌst tɔk laɪk ə ˈ nɔrməl ˈpɜrsən?

扮演 Gemma 的演员 迪琴-拉赫曼, 她咬紧牙关,以极其含糊的发音方式说出这句台词。(若想看到她更生动的基准状态,请参考47秒前的演讲片段。)紧绷的下颌与几乎不动的双唇,将她的痛苦、愤怒与挫败感牢牢禁锢。对观众而言是精彩的表演——但对音频转面部研究者而言,却是令人困扰的现实案例。.

从情绪到音量和速度,影响说话口型的因素似乎永无止境。虽然盖玛咬紧牙关、嘴唇缄默不语,但这并不影响她说话时的听觉可读性,读唇人很难解读她的话。她的发音方式严重改变了许多元音和辅音的预期外观。

音素和视素近距离观察

上图是杰玛演讲的稳定片段,突出显示了她最具对比性的唇形 附注2.请注意,尽管这些形状的对比度最高,但其中许多形状却难以辨认,也不符合相关视觉符号的预期特征。  

附注2: 这里并没有捕捉到 Gemma 讲话中的所有音素。许多音素被省略了,因为从视觉上无法将它们与周围的音素区分开来。

下面显示的是上述片段中的同一组音素及其视觉对应静态图像。将鼠标悬停在每张照片上方,可查看每个音素的上下文。

以 /p/'s /b/'s 和 /m/'s 为锚点

在评估拉赫曼表演的片段和静态图像时,我们可以明显地看到,久经考验的闭唇双元音--/p/、/b/和/m/--仍在按计划闭合。您还可以看到 /i/ 的唇角宽度略有增加,以及 /u/ 接近闭合的圆角,这一点值得称赞。

一般来说,虽然音素的预期发音形式与实际发音形式之间存在很大差异,但有些音素组比其他音素组更为复杂,需要更严格地安排发音器的位置。如果您从事面部动画或音频-面部研究,您很可能已经熟悉了/p/、/b/和/m/的坚固性。/p/、/b/和/m/通常被归入同一表意类别:闭合唇形。在评估模拟语音的质量和准确性时,/p/、/b/和/m/是很好的锚点。我们喜欢它们,因为它们总是闭合的,对吗?对不对?

/p/的/b/的和/m/的:硬道理

遗憾的是,虽然双唇闭合可以成为一个很好的锚点,但即使是最坚固的音素也无法避免变化。打开 "野兽先生"(或者我应该说 "Nr.Veast"),看着你的世界崩溃,因为 "Veast "的嘴唇在大部分/p/'s、/b/'s 和/m/'s 的发音中都无法闭合。Ɱr。Veast 热衷于唇齿音。(更多关于唇齿音的信息 此处 和 此处).

您可能会说,如果嘴唇没有闭合,这个音就不能算作 /p/、/b/ 或 /m/;但是,嘴唇没有完全闭合的情况并不会剥夺 p、b 或 m 的音位地位,也不会阻止我们将它们视为 p、b 或 m。事实上,这些不完全闭合的版本只是常见的 异音 的/p/、/b/和/m/。

请阅读维基百科的以下分类:

...[ɱ]在世界各地的语音中都非常常见,因为它是 /m/ 的通用异音,也是 /n/ 在唇齿音[f]和[v]之前的一个非常常见的异音,例如英语中的 comfort 和 circumvent,以及对许多人来说的 infinitive 和 invent。

英语中偶尔会出现 [p̪͡f] 这个音,在一些单词中,前一个音节以 "p "结尾,后一个音节以 "f "开头,如 "helpful "或 "stepfather"。

第 5 阶段:接受阶段

尽管最可靠的预言并不像人们普遍认为的那样可靠,但一切希望并没有破灭。一旦你学会面对 FACS,我的意思是--事实,并接受 人类行为和力学的混沌在此,让我们以神经科学家、灵长类动物学家和演讲家的一段话作为结束语。最后,让我们以神经科学家、灵长类动物学家和演讲家的一段话作为结束语、 罗伯特-萨波斯基:

更多口型同步资源

若需查看更严格且如时钟般精准的发音素示例,请参阅我的:

对于寻求更云端化方法的人,我的 关于口型对唱的一切 本课程将从解剖学、语言学及动画友好的视角深入探讨发音的混沌本质,涵盖:
  • 人类语音变异性(超越国际音标图表)
  • 语言学基础
  • 发音器官的解剖结构(颌骨、嘴唇、舌头、牙齿)
  • 协同发音与边缘案例
  • 为什么“标准”面部表情单元不起作用
  • 如何设计模块化语音系统
  • 言语与情感(它们如何相互阻碍或协调)
  • 维斯梅斯、面部动作捕捉系统及灵活的混合形状公式

专为工作室和团队设计

我们聊聊吧。.

facetheFACS@melindaozel.com