Meta heeft een tekst-naar-spraakprogramma getoond waarmee gebruikers tekst kunnen downloaden naar audio. Voicebox werkt in zes talen, inclusief Frans en Duits, maar Nederlands werkt nog niet. De tool wordt voorlopig niet openbaar om misbruik te voorkomen.
Meta zegt dat Voicebox een generatieve AI is die audiobestanden kunnen maken op basis van tekst. berekening is volgens Meta alleen een stuk audio bij nodig van minimaal twee seconden. Voicebox kan de tekst vervolgens zelf verder maken in zes talen. Dat zijn naast het Engels ook Frans, Duits, Spaans, Pools en Portugees.
Voicebox kan ook een audiobericht bevatten waarin een gesproken tekst uit zichzelf wordt bewerkt. Zo kan de tool verkeerd uitgesproken woorden van achtergrondgeluiden zoals een blaffende hond wegfilteren.
Meta heeft een stroomafstemming– model gebruikt om de tekst natuurlijk te laten klinken. Flow matching is een AI-trainingsmodel dat Meta zelf heeft ontworpen, dat is gebaseerd op continue normaliserende stromen. In een onderzoekspaper zegt meta dat het model is opgeleid tot 50.000 uur aan audio in elk van de zes ondersteunde talen. Het model zou een foutenpercentage van slechts 1,9 procent hebben in uitgesproken woorden.
Meta maakt zowel de tool als het achterliggende model voorlopig niet openbaar. Het bedrijf zegt dat een dergelijke tool ‘mogelijkheden heeft om misbruikt te worden en mensen pijn te doen’. Daarom wil het alleen een aanpak en de resultaten in een wetenschappelijk papier uitbrengen, maar de tool zelf niet. Of dat in de toekomst wel gaat gebeuren, zegt Meta niet. Het bedrijf heeft wel een aantal demo’s online gezet waarin tussentijds te horen zijn van de AI.
credit :Source link