Bu yazı, sesten yüze teknolojisinin, vizörlerin ve konuşma artikülasyonunun inceliklerini araştırıyor. AI dudak senkronizasyonu teknolojileri üzerinde çalışan yüz hareketleri uzmanı.
Sesten Yüze: Mücadele Gerçek
Tek bir ağız şekli belirli bir konuşma sesini tanımlamaz. Artikülasyonumuz, söylediğimiz her fonem, hece ve kelimeyle birlikte değişir. Kanonik şekiller (veya visemes) fonem gruplarına uygulandığında, mutlak anlamda "doğru" şekil mevcut değildir. "Doğru" şekil her zaman görecelidir ve büyük ölçüde basit koşulların ötesinde bir dizi değişken koşula bağlıdır NOT 1 koartikülasyon sorunu. Yüz animasyonunda veya sesten yüze teknolojilerinde çalışanlar için bu gerçeklik, doğru ve doğal görünen konuşma oluşturmanın en büyük zorluklarından biridir.
NOT 1: Koartikülasyon her zaman basit olmasa da, artikülasyonu etkileyen diğer karmaşık ve öngörülemeyen koşulların gerçeklerine maruz kaldığınızda basit hissetmeye başlarsınız.
S02E07'de Gemma'nın Dişlerini Sıkarak Teslimatı
Viseme probleminin mükemmel bir örneği şu örnekte görülebilir Kıdem Tazminatı 2. Sezon, 7. Bölüm, Gemma olarak bilinen karakter düşmanına sorar:
“Lütfen normal bir insan gibi konuşabilir misin?”
Amerikan İngilizcesinde bu satır fonetik olarak şöyle yazılabilir:
Kən ju pliz ʤʌst tɔk laɪk ə ˈ nɔrməl ˈpɜrsən?
Gemma'yı oynayan aktör, Dichen Lachman, dişlerini sıkarak ve son derece sessiz bir artikülasyon tarzıyla repliğini söylüyor. (Onun daha canlı temel sesini görmek için, 47. saniyeden önceki konuşmasına bakın.) Sıkılmış çenesi ve minimum hareket eden dudakları ile bastırdığı acısını, öfkesini ve hayal kırıklığını hissediyoruz. İzleyiciler için güzel bir performans, ancak ses-yüz araştırmacıları için rahatsız edici bir gerçek dünya örneği.
Duygulardan ses seviyesine ve hıza kadar, konuşmada ağız şekillerini etkileyen faktörler görünüşe göre hiç bitmiyor. Gemma'nın gıcırdayan dişleri ve sessiz dudakları konuşmasının işitsel okunabilirliğini etkilemese de, bir dudak okuyucu onun kelimelerini çözmekte zorlanacaktır. Artikülasyon tarzı, birçok sesli ve sessiz harfin beklenen görünümünü ciddi şekilde değiştiriyor.
Fonemler ve Visemler: Daha Yakından Bir Bakış
Yukarıda Gemma'nın konuşmasının en zıt dudak şekillerini vurgulayan stabilize edilmiş bir klibi yer almaktadır NOT 2. En kontrastlı olmalarına rağmen, bu şekillerin çoğunun nasıl ayırt edilemez olduğunu ve ilişkili görsellerinin beklenen özelliklerini yerine getiremediğini gözlemleyin.
NOT 2: Gemma'nın konuşmasındaki tüm fonemler burada yakalanmamıştır. Birçoğu dışarıda bırakıldı, çünkü görsel olarak çevredeki seslerden ayırt edilemiyorlardı.
Aşağıda, yukarıdaki klipteki aynı fonem seti ve görsel karşılıkları hareketsiz görüntüler olarak gösterilmektedir. Her bir görselin grafemik bağlamını görüntülemek için her bir fotoğrafın üzerine gelin.
Bağlantı Noktası Olarak /p/'ler /b/'ler ve /m/'ler
Lachman'ın performansından hem klip hem de hareketsiz görüntüler değerlendirildiğinde, denenmiş ve gerçek kapalı dudaklı çift dudakların - /p/, /b/ ve /m/ - hala olması gerektiği gibi kapandığı açıktır. Ayrıca /i/ için dudak köşesi genişliğinde hafif bir artış ve /u/ için övgüye değer neredeyse kapalı bir yuvarlama görebilirsiniz.
Genel olarak, fonemlerin beklenen görsel formları ile aldıkları gerçek formlar son derece değişken olsa da, bazı fonem grupları diğerlerinden daha titizdir ve artikülatör pozisyonlarının daha katı bir şekilde düzenlenmesini emreder. Eğer yüz animasyonu ya da ses-yüz araştırması yapıyorsanız, /p/, /b/ ve /m/'nin sağlamlığına muhtemelen aşinasınızdır. /p/, /b/ ve /m/ tipik olarak aynı görsel kategori içinde gruplandırılır: kapalı bir dudak şekli. /p/, /b/ ve /m/, simüle edilmiş konuşmanın kalitesini ve doğruluğunu değerlendirirken harika bağlantı noktalarıdır. Onları seviyoruz çünkü her zaman kapanıyorlar, değil mi? ...Değil mi?
/p/'ler /b/'ler ve /m/'ler: Acı Gerçek
Ne yazık ki, kapalı dudaklı iki dudaklılar harika bağlantı noktaları olsalar da, en sağlam fonemler bile varyasyona karşı bağışık değildir. Bir Bay Canavar (ya da Nr. Veast mı demeliydim) açın ve Veast'ın dudakları /p/'lerin, /b/'lerin ve /m/'lerin büyük bir kısmında kapanmazken dünyanızın parçalanmasını izleyin. Ɱr. Veast hevesli bir labiodentalizatördür. (Labiodentalizasyon hakkında daha fazlasını okuyun Burada ve Burada).
Dudaklar kapanmazsa, sesin /p/, /b/ veya /m/ olarak sayılmayacağını iddia etmek cazip gelebilir; ancak, tam olarak kapanmayan dudak durumu p'leri, b'leri veya m'leri fonemik statülerinden çıkarmaz ve onları p'ler, b'ler veya m'ler olarak algılamamızı engellemez. Aslında, bu tam kapalı olmayan versiyonlar sadece yaygındır allofonlar /p/, /b/, ve /m/'nin.
Wikipedia'dan aşağıdaki dökümü okuyun:
Aşama 5: Kabullenme
En güvenilir görüşler yaygın olarak inanıldığı kadar güvenilir olmasa da, tüm umutlar kaybolmuş değildir. Bir kez FACS, yani gerçeklerle yüzleşmeyi öğrendiğinizde ve insan davranışı ve mekaniğinin kaosuBulut benzeri karmaşıklığımızı deşifre etmek heyecan verici olabilir. Sinirbilimci, primatolog ve ünlü öğretim üyesinden dokunaklı bir alıntı ile bitirelim, Robert Sapolsky:
Daha Fazla Dudak Senkronizasyonu Kaynağı
Daha katı ve saat benzeri visem örnekleri için, benim:
- İnsan konuşmasının değişkenliği (IPA çizelgelerinin ötesinde)
- Dilbilimsel temeller
- Artikülasyonun anatomisi (çene, dudaklar, dil, dişler)
- Koartikülasyon ve sınır durumları
- Neden “kanonik” visemler işe yaramıyor?
- Modüler konuşma sistemleri nasıl tasarlanır?
- Konuşma ve duygu (nasıl engelleyebilir veya uyum sağlayabilirler)
- Visemler, FACS ve esnek karışım şekli formülleri