Voicebox von Meta: Fortschrittliche Sprachsynthese
Voicebox ist ein innovatives KI-Modell zur Sprachsynthese, das auf fortschrittlichen generativen Techniken basiert. Es kann auf eine Vielzahl von Aufgaben generalisieren, ohne speziell dafür trainiert zu werden. Mit der neuen Flow Matching-Technologie von Meta wird eine nicht-autoregressive Generierung ermöglicht, die eine hochgradig nicht-deterministische Zuordnung zwischen Text und Sprache lernt. Dieses Modell kann qualitativ hochwertige Audio-Clips in verschiedenen Stilen produzieren, in sechs Sprachen sprechen und Funktionen wie Rauschunterdrückung sowie Inhaltsbearbeitung durchführen.
Ein herausragendes Merkmal von Voicebox ist die Möglichkeit, jeden Teil eines gegebenen Samples zu modifizieren, was es äußerst vielseitig macht. Es kann nicht nur für Text-zu-Sprache-Synthese verwendet werden, sondern auch für stilistische Übertragungen über Sprachgrenzen hinweg sowie für die Bearbeitung und Generierung von Sprache. Voicebox übertrifft aktuelle Sprachmodelle in Bezug auf Wortfehlerquote und Audioähnlichkeit, obwohl es derzeit nicht öffentlich verfügbar ist.