Изменчивость висемы: Скрежет зубов и приглушенная речь

Последовательность произнесения женщиной (Джемма из "Severance") фонем и формы губ, которые она делает
Последовательность произнесения женщиной (Джемма из "Severance") фонем и формы губ, которые она делает

В этой заметке рассматриваются тонкости технологии audio-to-face, виземы и артикуляции речи - она написана с точки зрения эксперт по мимике лица, работающий над технологиями синхронизации губ с помощью искусственного интеллекта.

От звука к лицу: Борьба реальна

Ни одна форма рта не определяет конкретный звук речи. Наша артикуляция меняется с каждым фонемой, слогом и словом, которое мы произносим. Хотя мы пытаемся упростить исследования синхронизации губ, присваивая канонические формы (или visemes) к группам фонем, в абсолютном смысле "правильной" формы не существует. "Правильная" форма всегда относительна и сильно зависит от множества переменных условий, выходящих за рамки простого ПРИМЕЧАНИЕ 1 проблема коартикуляции. Для тех, кто работает в области лицевой анимации или технологий "звук в лицо", эта реальность является одной из самых больших проблем в создании точной и естественной речи.

ПРИМЕЧАНИЕ 1: Хотя коартикуляция не обязательно проста, она начинает казаться простой, когда вы знакомитесь с реалиями других сложных и непредсказуемых условий, влияющих на артикуляцию.

Роды Джеммы скрепя зубами в 2 сезоне 7 сезона

Прекрасную иллюстрацию проблемы висемы можно наблюдать в Выходное пособие Сезон 2, эпизод 7, когда персонаж, известный как Джемма, спрашивает своего антагониста:

“Не мог бы ты говорить как нормальный человек?”

В американском английском эта строка может быть фонетически транскрибирована как:
Kən ju pliz ʤʌst tɔk laɪk ə ˈ nɔrməl ˈpɜrsən?

Актер, играющий Джемму, Дичен Лахман, произносит свою реплику сквозь стиснутые зубы, используя чрезвычайно сдержанную манеру речи. (Чтобы увидеть ее более оживленную манеру речи, обратите внимание на ее речь до 47-й секунды.) Мы чувствуем ее боль, гнев и разочарование, сдерживаемые ее сжатыми челюстями и минимально движущимися губами. Прекрасное выступление для зрителей, но тревожный пример из реальной жизни для исследователей, занимающихся изучением взаимосвязи между звуком и мимикой.

От эмоций до громкости и скорости - факторы, влияющие на форму рта в речи, кажутся бесконечными. Хотя стиснутые зубы и приоткрытые губы Джеммы не влияют на разборчивость ее речи, читающий по губам человек не сможет расшифровать ее слова. Ее артикуляционный стиль сильно изменяет ожидаемый вид многих гласных и согласных.

Фонемы и висемы: Более пристальный взгляд

Выше представлен стабилизированный клип речи Джеммы, подчеркивающий ее наиболее контрастные формы губ. ПРИМЕЧАНИЕ 2. Обратите внимание, что, несмотря на наибольшую контрастность, многие из этих форм неразличимы и не соответствуют ожидаемым характеристикам связанных с ними визм.  

ПРИМЕЧАНИЕ 2: Здесь представлены не все фонемы из речи Джеммы. Многие из них были пропущены, поскольку визуально были неотличимы от окружающих звуков.

Ниже показан тот же набор фонем из вышеупомянутого ролика и их визуальные аналоги в виде стоп-кадров. Наведите курсор на каждую фотографию, чтобы увидеть графемный контекст для каждой висемы.

/p/'/b/'/ и /m/'/ как опорные точки

При оценке клипа и снимков с выступления Лахмана видно, что проверенные временем билабиалы с закрытыми губами - /p/, /b/ и /m/ - по-прежнему закрываются так, как и должны. Вы также можете увидеть небольшое увеличение ширины губного угла для /i/, а также похвальное почти закрытое закругление для /u/.

В целом, хотя ожидаемые видовые формы фонем и их фактические формы чрезвычайно разнообразны, некоторые группы фонем более прихотливы, чем другие, и требуют более жесткого расположения артикуляторов. Если вы занимаетесь лицевой анимацией или исследованиями в области "звук - лицо", вы, скорее всего, уже знакомы с прочностью /p/, /b/ и /m/. /p/, /b/ и /m/ обычно объединяют в одну категорию висемов: закрытая форма губ. /p/, /b/ и /m/ - отличные опорные точки при оценке качества и точности имитации речи. Мы любим их, потому что они всегда закрываются, верно? ...Верно?

/p/'s /b/'s & /m/'s: Суровая правда

К сожалению, хотя билабиальные губы с закрытыми губами могут быть отличной точкой опоры, даже самые надежные фонемы не застрахованы от вариаций. Откройте Mr. Beast (или, лучше сказать, Nr. Veast) и посмотрите, как рушится ваш мир, когда губы Veast не закрываются для значительной части /p/, /b/ и /m/. Ɱr. Veast - заядлый лабиоденталист. (Подробнее о лабиодентализации здесь и здесь).

Вы можете возразить, что если губы не смыкаются, то звук не считается /p/, /b/ или /m/; однако ситуация с не полностью сомкнутыми губами не лишает p, b или m их фонематического статуса, и не мешает нам воспринимать их как p, b или m. На самом деле, эти не полностью закрытые варианты являются обычными аллофоны /p/, /b/ и /m/.

Прочтите следующую статью из Википедии:

...[ɱ] чрезвычайно распространен во всем мире фонетически, поскольку является универсальным аллофоном /m/ и очень распространенным аллофоном /n/ перед лабиодентальными фрикативами [f] и [v], как, например, в английских comfort и circumvent, а также, для многих людей, в инфинитиве и invent.

Звук [p̪͡f] иногда встречается в английском языке в словах, где один слог заканчивается на "p", а следующий начинается на "f", например, в словах "helpful" или "stepfather".

Этап 5: Принятие

Хотя самые надежные визмы не так надежны, как принято считать, надежда не потеряна. Как только вы научитесь смотреть в лицо FACS, то есть фактам, и примете Хаос человеческого поведения и механикаРасшифровка наших заоблачных сложностей может быть захватывающей. В заключение приведем пронзительный отрывок из книги невролога, приматолога и лектора, читающего лекции, Роберт Сапольски:

Дополнительные ресурсы по синхронизации губ

Более четкие и точные примеры виземов можно найти в моей статье:

Для тех, кто ищет более облачные подходы, мой Все о синхронизации губ курс углубляется в хаос артикуляции с анатомической, лингвистической и анимационной точек зрения, охватывая следующие темы:
  • Вариативность человеческой речи (за пределами таблиц МФА)
  • Лингвистические основы
  • Анатомия артикуляции (челюсть, губы, язык, зубы)
  • Коартикуляция и крайние случаи
  • Почему “канонические” виземы не работают
  • Как проектировать модульные речевые системы
  • Речь и эмоции (как они могут мешать или гармонировать)
  • Виземы, FACS и гибкие формулы блендшейпов

Предназначен для студий и команд

Давайте поговорим.

facetheFACS@melindaozel.com