这篇博文从一个普通人的视角出发,探讨了音频到人脸技术、视觉和语音发音的复杂性。 面部动作专家,致力于人工智能口型同步技术的研究.
从声音到脸庞:斗争是真实的
没有单一的口型能定义特定的语音。我们的发音方式会随着每个音素、音节和词语的发声而变化。尽管我们试图通过设定标准口型(或 视觉从绝对意义上讲,"正确 "的形状并不存在。正确的 "形状总是相对的,在很大程度上取决于一系列可变条件,而不是简单的 注1 共同发音问题。对于那些从事面部动画或音频-面部技术工作的人来说,这一现实问题是创造准确自然的语音所面临的最大挑战之一。
注1:虽然共同发音并不一定简单,但当你接触到影响发音的其他复杂和不可预知的条件时,你就会开始觉得简单了。
杰玛在 S02E07 中咬牙切齿地传递信息
在以下作品中,我们可以看到对 "视觉 "问题的完美诠释 离职 第二季第 7 集,当被称为 Gemma 的角色问她的对手时:
“你能像正常人一样说话吗?”
在美式英语中,这句话可以音译为
Kən ju pliz ʤʌst tɔk laɪk ə ˈ nɔrməl ˈpɜrsən?
扮演 Gemma 的演员 迪琴-拉赫曼, 她咬紧牙关,以极其含糊的发音方式说出这句台词。(若想看到她更生动的基准状态,请参考47秒前的演讲片段。)紧绷的下颌与几乎不动的双唇,将她的痛苦、愤怒与挫败感牢牢禁锢。对观众而言是精彩的表演——但对音频转面部研究者而言,却是令人困扰的现实案例。.
从情绪到音量和速度,影响说话口型的因素似乎永无止境。虽然盖玛咬紧牙关、嘴唇缄默不语,但这并不影响她说话时的听觉可读性,读唇人很难解读她的话。她的发音方式严重改变了许多元音和辅音的预期外观。
音素和视素近距离观察
上图是杰玛演讲的稳定片段,突出显示了她最具对比性的唇形 附注2.请注意,尽管这些形状的对比度最高,但其中许多形状却难以辨认,也不符合相关视觉符号的预期特征。
附注2: 这里并没有捕捉到 Gemma 讲话中的所有音素。许多音素被省略了,因为从视觉上无法将它们与周围的音素区分开来。
下面显示的是上述片段中的同一组音素及其视觉对应静态图像。将鼠标悬停在每张照片上方,可查看每个音素的上下文。
以 /p/'s /b/'s 和 /m/'s 为锚点
在评估拉赫曼表演的片段和静态图像时,我们可以明显地看到,久经考验的闭唇双元音--/p/、/b/和/m/--仍在按计划闭合。您还可以看到 /i/ 的唇角宽度略有增加,以及 /u/ 接近闭合的圆角,这一点值得称赞。
一般来说,虽然音素的预期发音形式与实际发音形式之间存在很大差异,但有些音素组比其他音素组更为复杂,需要更严格地安排发音器的位置。如果您从事面部动画或音频-面部研究,您很可能已经熟悉了/p/、/b/和/m/的坚固性。/p/、/b/和/m/通常被归入同一表意类别:闭合唇形。在评估模拟语音的质量和准确性时,/p/、/b/和/m/是很好的锚点。我们喜欢它们,因为它们总是闭合的,对吗?对不对?
/p/的/b/的和/m/的:硬道理
遗憾的是,虽然双唇闭合可以成为一个很好的锚点,但即使是最坚固的音素也无法避免变化。打开 "野兽先生"(或者我应该说 "Nr.Veast"),看着你的世界崩溃,因为 "Veast "的嘴唇在大部分/p/'s、/b/'s 和/m/'s 的发音中都无法闭合。Ɱr。Veast 热衷于唇齿音。(更多关于唇齿音的信息 此处 和 此处).
您可能会说,如果嘴唇没有闭合,这个音就不能算作 /p/、/b/ 或 /m/;但是,嘴唇没有完全闭合的情况并不会剥夺 p、b 或 m 的音位地位,也不会阻止我们将它们视为 p、b 或 m。事实上,这些不完全闭合的版本只是常见的 异音 的/p/、/b/和/m/。
请阅读维基百科的以下分类:
“英语中偶尔会出现 [p̪͡f] 这个音,在一些单词中,前一个音节以 "p "结尾,后一个音节以 "f "开头,如 "helpful "或 "stepfather"。“
第 5 阶段:接受阶段
尽管最可靠的预言并不像人们普遍认为的那样可靠,但一切希望并没有破灭。一旦你学会面对 FACS,我的意思是--事实,并接受 人类行为和力学的混沌在此,让我们以神经科学家、灵长类动物学家和演讲家的一段话作为结束语。最后,让我们以神经科学家、灵长类动物学家和演讲家的一段话作为结束语、 罗伯特-萨波斯基:
更多口型同步资源
若需查看更严格且如时钟般精准的发音素示例,请参阅我的:
- 人类语音变异性(超越国际音标图表)
- 语言学基础
- 发音器官的解剖结构(颌骨、嘴唇、舌头、牙齿)
- 协同发音与边缘案例
- 为什么“标准”面部表情单元不起作用
- 如何设计模块化语音系统
- 言语与情感(它们如何相互阻碍或协调)
- 维斯梅斯、面部动作捕捉系统及灵活的混合形状公式