视觉变异：咬牙切齿与哑语

这篇博文从一个普通人的视角出发，探讨了音频到人脸技术、视觉和语音发音的复杂性。面部动作专家，致力于人工智能口型同步技术的研究.

从声音到脸庞：斗争是真实的

没有单一的口型能定义特定的语音。我们的发音方式会随着每个音素、音节和词语的发声而变化。尽管我们试图通过设定标准口型（或视觉从绝对意义上讲，"正确 "的形状并不存在。正确的 "形状总是相对的，在很大程度上取决于一系列可变条件，而不是简单的 ^注1 共同发音问题。对于那些从事面部动画或音频-面部技术工作的人来说，这一现实问题是创造准确自然的语音所面临的最大挑战之一。

^{注1:虽然共同发音并不一定简单，但当你接触到影响发音的其他复杂和不可预知的条件时，你就会开始觉得简单了。}

杰玛在 S02E07 中咬牙切齿地传递信息

在以下作品中，我们可以看到对 "视觉 "问题的完美诠释离职第二季第 7 集，当被称为 Gemma 的角色问她的对手时：

“你能像正常人一样说话吗？”

在美式英语中，这句话可以音译为
Kən ju pliz ʤʌst tɔk laɪk ə ˈ nɔrməl ˈpɜrsən?

扮演 Gemma 的演员迪琴-拉赫曼, 她咬紧牙关，以极其含糊的发音方式说出这句台词。（若想看到她更生动的基准状态，请参考47秒前的演讲片段。）紧绷的下颌与几乎不动的双唇，将她的痛苦、愤怒与挫败感牢牢禁锢。对观众而言是精彩的表演——但对音频转面部研究者而言，却是令人困扰的现实案例。.

从情绪到音量和速度，影响说话口型的因素似乎永无止境。虽然盖玛咬紧牙关、嘴唇缄默不语，但这并不影响她说话时的听觉可读性，读唇人很难解读她的话。她的发音方式严重改变了许多元音和辅音的预期外观。

音素和视素近距离观察

上图是杰玛演讲的稳定片段，突出显示了她最具对比性的唇形 ^附注2.请注意，尽管这些形状的对比度最高，但其中许多形状却难以辨认，也不符合相关视觉符号的预期特征。

^{附注2：这里并没有捕捉到 Gemma 讲话中的所有音素。许多音素被省略了，因为从视觉上无法将它们与周围的音素区分开来。}

下面显示的是上述片段中的同一组音素及其视觉对应静态图像。将鼠标悬停在每张照片上方，可查看每个音素的上下文。

以 /p/'s /b/'s 和 /m/'s 为锚点

在评估拉赫曼表演的片段和静态图像时，我们可以明显地看到，久经考验的闭唇双元音--/p/、/b/和/m/--仍在按计划闭合。您还可以看到 /i/ 的唇角宽度略有增加，以及 /u/ 接近闭合的圆角，这一点值得称赞。

一般来说，虽然音素的预期发音形式与实际发音形式之间存在很大差异，但有些音素组比其他音素组更为复杂，需要更严格地安排发音器的位置。如果您从事面部动画或音频-面部研究，您很可能已经熟悉了/p/、/b/和/m/的坚固性。/p/、/b/和/m/通常被归入同一表意类别：闭合唇形。在评估模拟语音的质量和准确性时，/p/、/b/和/m/是很好的锚点。我们喜欢它们，因为它们总是闭合的，对吗？对不对？

/p/的/b/的和/m/的：硬道理

遗憾的是，虽然双唇闭合可以成为一个很好的锚点，但即使是最坚固的音素也无法避免变化。打开 "野兽先生"（或者我应该说 "Nr.Veast"），看着你的世界崩溃，因为 "Veast "的嘴唇在大部分/p/'s、/b/'s 和/m/'s 的发音中都无法闭合。Ɱr。Veast 热衷于唇齿音。(更多关于唇齿音的信息此处和此处).

您可能会说，如果嘴唇没有闭合，这个音就不能算作 /p/、/b/ 或 /m/；但是，嘴唇没有完全闭合的情况并不会剥夺 p、b 或 m 的音位地位，也不会阻止我们将它们视为 p、b 或 m。事实上，这些不完全闭合的版本只是常见的异音的/p/、/b/和/m/。

请阅读维基百科的以下分类：

“...[ɱ]在世界各地的语音中都非常常见，因为它是 /m/ 的通用异音，也是 /n/ 在唇齿音[f]和[v]之前的一个非常常见的异音，例如英语中的 comfort 和 circumvent，以及对许多人来说的 infinitive 和 invent。“

“英语中偶尔会出现 [p̪͡f] 这个音，在一些单词中，前一个音节以 "p "结尾，后一个音节以 "f "开头，如 "helpful "或 "stepfather"。“

第 5 阶段：接受阶段

尽管最可靠的预言并不像人们普遍认为的那样可靠，但一切希望并没有破灭。一旦你学会面对 FACS，我的意思是--事实，并接受人类行为和力学的混沌在此，让我们以神经科学家、灵长类动物学家和演讲家的一段话作为结束语。最后，让我们以神经科学家、灵长类动物学家和演讲家的一段话作为结束语、罗伯特-萨波斯基:

从声音到脸庞：斗争是真实的

杰玛在 S02E07 中咬牙切齿地传递信息

音素和视素近距离观察

以 /p/'s /b/'s 和 /m/'s 为锚点

/p/的/b/的和/m/的：硬道理

第 5 阶段：接受阶段

更多口型同步资源

专为工作室和团队设计

我们聊聊吧。.