У цій статті досліджуються тонкощі технології аудіо-віч-на-віч, віземи та артикуляції мовлення - написаній з точки зору людини, яка експерт з міміки обличчя, який працює над технологіями синхронізації губ за допомогою штучного інтелекту.
Від аудіо до обличчя: Боротьба реальна
Жодна форма рота не визначає конкретний звук мови. Наша артикуляція змінюється з кожним фонемою, складом і словом, яке ми вимовляємо. Хоча ми намагаємося спростити дослідження синхронізації губ, призначаючи канонічні форми (або віземи) до груп фонем, в абсолютному сенсі "правильної" форми не існує. "Правильна" форма завжди відносна і сильно залежить від безлічі змінних умов, що виходять за рамки простого ПРИМІТКА 1 проблема коартикуляції. Для тих, хто працює в галузі лицьової анімації або технологій аудіо до обличчя, ця реальність є одним з найбільших викликів у створенні точної та природної мови.
ПРИМІТКА 1: Хоча коартикуляція не обов'язково проста, вона починає здаватися простою, коли ви стикаєтеся з реаліями інших складних і непередбачуваних умов, які впливають на артикуляцію.
Зціпивши зуби, Джемма народжує в 2 сезоні 7 серії
Чудову ілюстрацію проблеми віземе можна спостерігати в Вихідна допомога Сезон 2, епізод 7, коли героїня, відома як Джемма, запитує свого антагоніста:
“Ти не міг би просто говорити як нормальна людина?”
В американській англійській мові цей рядок можна фонетично транскрибувати як:
Kən ju pliz ʤʌst tɔk laɪk ə ˈ nɔrməl ˈpɜrsən?
Актор, який грає Джемму, Дічен Лахман, вимовляє свою репліку, стискаючи зуби, з надзвичайно приглушеною артикуляцією. (Щоб побачити її більш жваву базову лінію, зверніть увагу на її промову до 47-ї секунди.) Ми відчуваємо її біль, гнів і розчарування, стримувані стиснутими щелепами і мінімально рухомими губами. Прекрасна гра для глядачів, але тривожний приклад з реального життя для дослідників, які вивчають взаємозв'язок між звуком і обличчям.
Фактори, що впливають на форму рота під час мовлення - від емоцій до гучності та швидкості - здавалося б, нескінченні. Хоча зціплені зуби і приглушені губи Джемми не впливають на слухову розбірливість її мови, людині, яка читає по губах, буде важко розшифрувати її слова. Її стиль артикуляції сильно змінює очікуваний вигляд багатьох голосних і приголосних звуків.
Фонеми та віземи: Ближчий погляд
Вище - стабілізований фрагмент промови Джемми, що підкреслює її найконтрастніші форми губ ПРИМІТКА 2. Зверніть увагу, що, незважаючи на свою контрастність, багато з цих форм є невиразними і не відповідають очікуваним характеристикам пов'язаних з ними віземам.
ПРИМІТКА 2: Не всі фонеми в мові Джемми зафіксовані тут. Багато з них були пропущені, тому що вони візуально не відрізнялися від навколишніх звуків.
Нижче показано той самий набір фонем з вищезгаданого кліпу та їхні візуальні відповідники у вигляді нерухомих зображень. Наведіть курсор на кожну фотографію, щоб переглянути графемний контекст для кожної віземи.
/p/, /b/ та /m/ як опорні точки
Оцінюючи як кліп, так і фотографії з виступу Лахмана, можна помітити, що випробувані білабіали з зімкнутими губами - /p/, /b/ і /m/ - все ще закриваються так, як і повинні закриватися. Ви також можете побачити невелике збільшення ширини кута губ для /i/, а також похвальне майже закрите заокруглення для /u/.
Загалом, хоча очікувані візуальні форми фонем та реальні форми, яких вони набувають, дуже відрізняються, деякі групи фонем є більш метушливими, ніж інші, і вимагають більш жорсткого розташування артикуляторів. Якщо ви займаєтеся лицьовою анімацією або дослідженнями аудіо, ви, ймовірно, вже знайомі з твердістю /p/, /b/ та /m/. /p/, /b/ і /m/ зазвичай групуються в одну категорію візії: закрита форма губ. /p/, /b/ та /m/ є чудовими опорними точками при оцінці якості та точності імітації мовлення. Ми любимо їх за те, що вони завжди закриті, чи не так? ...Так?
/p/, /b/ та /m/: Жорстока правда
На жаль, хоча білабіали із зімкнутими губами можуть бути чудовими опорними пунктами, навіть найстійкіші фонеми не застраховані від варіацій. Відкрийте пана Звіра (або, краще сказати, пана Веста) і спостерігайте, як ваш світ руйнується, коли губи Веста не можуть зімкнутись для значної частини /p/, /b/ та /m/. Гм. Вест - завзятий лабіоденталізатор. (Дізнайтеся більше про лабіоденталізацію тут. і тут.).
У вас може виникнути спокуса стверджувати, що якщо губи не зімкнуті, звук не вважається /p/, /b/ чи /m/; однак ситуація з неповністю зімкнутими губами не позбавляє p, b чи m їхнього фонематичного статусу і не заважає нам сприймати їх як p, b чи m. Насправді, ці неповністю зімкнуті варіанти просто поширені алофони з /p/, /b/ та /m/.
Ознайомтеся з наступною розбивкою з Вікіпедії:
Етап 5: Прийняття
Хоча найнадійніші візії не настільки надійні, як прийнято вважати, надія ще не втрачена. Як тільки ви навчитеся дивитися в обличчя FACS, тобто фактам, і приймете хаос людської поведінки та механікиРозшифровка наших хмароподібних складнощів може бути захоплюючою. На завершення наведемо пронизливий уривок від нейробіолога, приматолога та лектора з козлами, Роберт Сапольський:
Більше ресурсів для синхронізації губ
Більш чіткі та точні приклади віземів можна знайти в моїй статті:
- Варіативність людської мови (поза межами таблиць IPA)
- Лінгвістичні основи
- Анатомія артикуляції (щелепа, губи, язик, зуби)
- Коартикуляція та крайні випадки
- Чому “канонічні” віземи не працюють
- Як проектувати модульні системи мовлення
- Мова проти емоцій (як вони можуть перешкоджати або гармоніювати)
- Віземи, FACS та гнучкі формули блендшейпу