Metinden görsel oluşturan sohbet robotları, sorulan sorulara bir insan gibi yanıt veren sohbet robotları derken şimdi de yapay zeka modellerine bir yenisi daha eklendiği haberi geldi. Yapay zeka konusunda çalışmalar dünya çapında sürerken, Microsoft'tan araştırmacılar yeni bir metinden ses oluşturabilen yapay zeka modeli duyurdu. Bu model, ismiyle OpenAI'nin metinden görsel oluşturan yapay zeka programı DALL-E'yi akla getiren "VALL-E."
Ars Technica’nın haberine göre, perşembe günü, Microsoft araştırmacılarının duyurduğu VALL-E adlı yeni bir metinden ses oluşturabilen yapay zeka modeli. Haberde, VALL-E'nin üç saniyelik bir ses örneği verildiğinde bir kişinin sesini yakın bir şekilde taklit edebildiği söyleniyor. Hatta bunu konuşmacının ses tonundaki duyguyu korumaya çalışacak şekilde yapabildiği de dile getiriliyor.
Microsoft, VALL-E'yi "nöral codec dili modeli" olarak adlandırıyor ve Meta'nın Ekim 2022'de duyurduğu EnCodec adlı bir teknolojiden yararlandığını söylüyor.
Microsoft'un VALL-E'yi 7.000'den fazla konuşmacının 60.000 saatlik İngilizce konuşmasını içeren kütüphaneyle eğittiği belirtiliyor.
VALL-E'nin yüksek kaliteli metin seslendirme uygulamaları ve diğer yapay zeka modelleriyle birlikte ses içeriği oluşturma için kullanılabileceğini tahmin ediliyor. Ancak yapay zeka, sesleri yakın bir şekilde taklit edebildiği için aslında konuşmacıların söylememiş oldukları bir şeyi de söyleyebilir.
Paylaşılan etik beyanında ise VALL-E'nin kötüye kullanılmasına ilişkin potansiyel riskler taşıyabileceğinin altı çiziliyor.
VALL-E’den çıkan çok sayıda ses örneği GitHub üzerinden yayınlandı. Bazı örnekler oldukça şaşırtıcı görünüyor. Hatta bazısında VALL-E'nin ortama ve duyguya göre sonuçlar çıkarttığı anlaşılıyor. Örneğin, konuşmacının sesi yankı yapıyorsa veya bir şeyi kızarak söylüyorsa sistem de buna göre ses üretmiş gibi duruyor.