この記事では、オーディオ・トゥ・トゥ・テクニック、ヴィジーム、そしてスピーチの明瞭さについての複雑さを探求する。 AIリップシンク技術に取り組む顔面運動の専門家.
オーディオからフェイスへ:闘いは現実だ
特定の音声は単一の口の形によって定義されるわけではない。発音は、発する音素、音節、単語ごとに変化する。口パク研究を簡略化するため規範的な形(または ビゼムを音素のグループに置き換えた場合、絶対的な意味で「正しい」形は存在しない。正しい」形とは常に相対的なものであり、単純な「正しい」形とは異なる様々な条件に大きく左右される。 注1 という問題がある。フェイシャル・アニメーションやオーディオ・トゥ・フェイス技術に携わる者にとって、この現実は、正確で自然な音声を作成する上での最大の課題のひとつである。
注1:共同調音は必ずしも単純なものではないが、調音に影響を与える複雑で予測不可能な条件の現実に触れれば、単純に感じられるようになる。
S02E07でのジェマの歯ぎしり配信
ヴィジーム問題の完璧な例証は次の通りである。 セベランス シーズン2の第7話、ジェマというキャラクターが敵役に尋ねる場面だ:
“「普通の人みたいに話してくれない?」”
アメリカ英語では、この行を音訳するとこうなる:
Kən ju pliz ʤ ʌ tɔk laɔk ˈ nɔrm_25C↩?
ジェマ役の俳優 ディチェン・ラックマン, 歯を食いしばり、極めて控えめな発音スタイルで台詞を吐き出す。(彼女のより感情豊かな基本状態を見るには、47秒時点以前のスピーチを参照のこと。)噛みしめた顎と最小限に動く唇に抑え込まれた彼女の痛み、怒り、苛立ちが伝わってくる。視聴者にとっては見事な演技だが、音声から表情を解析する研究者にとっては悩ましい実例である。.
感情から声の大きさ、スピードに至るまで、スピーチにおける口の形に影響を与える要因は、尽きることがないように思える。ジェマの歯ぎしりや唇の動きは、聴覚的な読みやすさには影響しないが、読唇術を使う人が彼女の言葉を解読するのは難しいだろう。彼女の発声スタイルは、多くの母音や子音の表情を大きく変えてしまう。
音素とヴィセムより詳しく見る
上の画像は、最も対照的な唇の形を強調したジェマのスピーチの安定したクリップである。 ノート2.最も対照的であるにもかかわらず、これらの形状の多くが識別不能であり、関連する視覚に期待される特徴を満たしていないことに注目してほしい。
注2. ジェマの音声のすべてがここに収められているわけではない。周囲の音と視覚的に区別がつかないため、多くは割愛した。
以下は、上記のクリップの音素と、それに対応する静止画像です。各写真の上にマウスを置くと、各音素の語彙的背景が表示されます。
アンカーポイントとしての/p/'s /b/'s & /m/'s
クリップと静止画の両方を評価すると、/p/、/b/、/m/といった唇を閉じた両唇音は、まだ本来の閉じ方をしていることがわかる。また、/i/では唇の角の幅がわずかに広がり、/u/では賞賛に値するほぼ閉じた丸みが見られる。
一般的に、音素の予想される視覚的形態と実際の形態は非常に大きく異なりますが、いくつかの音素グループは他のグループよりも気難しく、調音器の位置をより厳密に配置する必要があります。フェイシャルアニメーションや音声対音声の研究に携わっている方なら、/p/、/b/、/m/の頑丈さはすでによくご存知でしょう。/p/、/b/、/m/は、一般的に、唇を閉じた形という同じカテゴリーに分類されます。/p/、/b/、/m/は、模擬音声の品質と精度を評価する際に最適なアンカーポイントです。私たちが大好きなのは、常に唇が閉じているからですよね?...そうでしょう?
/p/'s /b/'s & /m/'s:厳しい真実
残念なことに、唇を閉じた両唇音は素晴らしいアンカーポイントになり得ますが、最も頑強な音素であっても、ばらつきの影響を受けないわけではありません。Mr.ビースト(あるいはNr.ビーストと言うべきか)を開けて、ビーストの唇が/p/の大部分、/b/の大部分、/m/の大部分で閉じなくなるのを見て、あなたの世界が崩れ去るのを見てください。ˆr.ヴィーストは熱心に唇歯音化します。(唇歯音化についてもっと読む 此処 そして 此処).
唇が閉じていない場合、その音は/p/、/b/、/m/としてカウントされないと主張したくなるかもしれない。しかし、唇が完全に閉じていない状況は、p、b、またはmの音素の地位を剥奪するものではないし、私たちがそれらをp、b、またはmとして認識することを止めるものでもない。実際、これらの完全に閉じていないバージョンは一般的なものです。 異音 p/、/b/、/m/の。
ウィキペディアに掲載されている以下の内訳を読んでほしい:
“...[ɱ]は、/m/の普遍的な同音異義語であり、唇歯音fricatives [f]と[v]の前の/n/の非常に一般的な同音異義語であるため、音声学的には世界中で非常に一般的である。“
“p̪͡f]という音は、英語では「helpful」や「stepfather」のように、1つの音節が'p'で終わり、次の音節が'f'で始まる単語で時折出現する。“
第5段階受容
最も信頼できるヴィゼムは、広く信じられているほど信頼できるものではないが、すべての希望が失われたわけではない。いったんFACS、つまり事実と向き合うことを学べば、その事実を受け入れることができる。 人間の行動と力学のカオス私たちの雲のような複雑さを読み解くことは、エキサイティングなことなのだ。最後に、神経科学者であり霊長類学者であり、講演家でもある彼の痛烈な言葉で締めくくろう、 ロバート・サポルスキー:
リップシンク関連リソースをもっと見る
より厳密で時計のようなヴィゼムの例については、私の以下をご覧ください:
- 人間の音声の変動性(国際音声記号(IPA)図表を超える範囲)
- 言語学の基礎
- 発音器官の構造(顎、唇、舌、歯)
- 共鳴と境界事例
- なぜ「標準的な」ビゼームは機能しないのか
- モジュラー音声システムの設計方法
- 言語と感情(それらが妨げたり調和したりする方法)
- ビゼム、FACS、および柔軟なブレンドシェイプ式