这篇博文从一个普通人的角度,探讨了音频--面部技术、视觉和语音发音的复杂性。 專攻人工智慧唇形同步技術的面部動作專家.
从声音到脸庞:奋斗是真实的
沒有單一嘴型能定義特定的發音。我們的發音方式會隨著每個音素、音節和詞語的吐出而改變。儘管我們試圖透過賦予標準化嘴型(或稱規範形狀)來簡化口型同步研究—— 视觉从绝对意义上讲,"正确 "的形状并不存在。正确的 "形状总是相对的,在很大程度上取决于一系列可变条件,而不是简单的 注1 共同发音问题。对于那些从事面部动画或音频-面部技术工作的人来说,这一现实问题是创造准确自然的语音所面临的最大挑战之一。
注1:虽然共同发音并不一定简单,但当你接触到影响发音的其他复杂和不可预知的条件时,你就会开始觉得简单了。
杰玛在 S02E07 中咬牙切齿地传递信息
在以下作品中,我们可以看到对 "视觉 "问题的完美诠释 离职 第二季第 7 集,当被称为 Gemma 的角色问她的对手时:
“「你能不能像個正常人一樣說話?」”
在美式英语中,这句话可以音译为
Kən ju pliz ʤʌst tɔk laɪk ə ˈ nɔrməl ˈpɜrsən?
扮演 Gemma 的演员 迪琴-拉赫曼, 她咬緊牙關說出這句台詞,採用極度壓抑的發音風格。(欲見其更生動的基礎表現,請參閱47秒標記前的演說。)我們能感受到她被緊咬的下顎與微動的雙唇所壓抑的痛苦、憤怒與挫敗。對觀眾而言是場精彩演出——但對音聲轉臉研究者而言卻是令人困擾的現實案例。.
从情绪到音量和速度,影响说话口型的因素似乎永无止境。虽然盖玛咬紧牙关、嘴唇缄默不语,但这并不影响她说话时的听觉可读性,读唇人很难解读她的话。她的发音方式严重改变了许多元音和辅音的预期外观。
音素和视素近距离观察
上图是杰玛演讲的稳定片段,突出显示了她最具对比性的唇形 附注2.请注意,尽管这些形状的对比度最高,但其中许多形状却难以辨认,也不符合相关视觉符号的预期特征。
附注2: 这里并没有捕捉到 Gemma 讲话中的所有音素。许多音素被省略了,因为从视觉上无法将它们与周围的音素区分开来。
下面显示的是上述片段中的同一组音素及其视觉对应静态图像。将鼠标悬停在每张照片上方,可查看每个音素的上下文。
以 /p/'s /b/'s 和 /m/'s 为锚点
在评估拉赫曼表演的片段和静态图像时,我们可以明显地看到那些久经考验的闭唇双音--/p/、/b/和/m/--仍然像它们应该闭合的那样闭合。您还可以看到 /i/ 的唇角宽度略有增加,以及 /u/ 接近闭合的圆角,这一点值得称赞。
一般来说,虽然音素的预期发音形式与实际发音形式之间存在很大差异,但有些音素组比其他音素组更复杂,需要更严格地安排发音器的位置。如果您从事面部动画或音频-面部研究,您很可能已经熟悉了/p/、/b/和/m/的坚固性。/p/、/b/和/m/通常被归入同一表意类别:闭合唇形。在评估模拟语音的质量和准确性时,/p/、/b/和/m/是很好的锚点。我们喜欢它们,因为它们总是闭合的,对吗?对不对?
/p/的/b/的和/m/的:硬道理
遗憾的是,虽然双唇闭合可以成为一个很好的锚点,但即使是最坚固的音素也无法避免变化。打开 "野兽先生"(或者我应该说 "Nr.Veast"),看着你的世界崩溃,因为 "Veast "的嘴唇在大部分/p/'s、/b/'s 和/m/'s 的发音中都无法闭合。Ɱr。Veast 热衷于唇齿音。(更多关于唇齿音的信息 此处 和 此处).
您可能会说,如果嘴唇没有闭合,这个音就不能算作 /p/、/b/ 或 /m/;但是,嘴唇没有完全闭合的情况并不会剥夺 p、b 或 m 的音位地位,也不会阻止我们将它们视为 p、b 或 m。事实上,这些不完全闭合的版本只是常见的 异音 的/p/、/b/和/m/。
请阅读维基百科的以下分类:
“英语中偶尔会出现 [p̪͡f] 这个音,在一些单词中,前一个音节以 "p "结尾,后一个音节以 "f "开头,如 "helpful "或 "stepfather"。“
第 5 阶段:接受阶段
尽管最可靠的预言并不像人们普遍认为的那样可靠,但一切希望并没有破灭。一旦你学会面对 FACS,我的意思是--事实,并接受 人类行为和力学的混沌在此,让我们以神经科学家、灵长类动物学家和演讲家的一段话作为结束语。最后,让我们以神经科学家、灵长类动物学家和演讲家的一段话作为结束语、 罗伯特-萨波斯基:
更多口型對位資源
若想查看更嚴謹且如時鐘般精準的視音素範例,請參閱我的:
- 人類語音變異性(超越國際音標圖表)
- 語言學基礎
- 發音器官的解剖結構(顎、嘴唇、舌頭、牙齒)
- 共音現象與邊界案例
- 為何「標準」面部音素無法奏效
- 如何設計模組化語音系統
- 言語與情感(它們如何相互阻礙或協調)
- 維斯米、面部動作捕捉系統與靈活的混合形狀公式