Microsoft onthult VALL-E, audio-AI die elke stem kan simuleren vanaf prompts van 3 seconden


Microsoft-onderzoekers hebben onlangs VALL-E aangekondigd, een nieuw tekst-naar-spraak AI-model dat de stem van een persoon nauwkeurig kan nabootsen wanneer een audiofragment van drie seconden wordt gegeven. Zodra het een specifieke stem heeft geleerd, kan VALL-E audio synthetiseren van die persoon die iets zegt, terwijl wordt geprobeerd de emotionele toon van de spreker vast te houden. In combinatie met andere generatieve AI-modellen zoals GPT-3, geloven de makers van VALL-E dat het kan worden gebruikt voor hoogwaardige tekst-naar-spraak-toepassingen, spraakbewerking waarbij een opname van een persoon kan worden bewerkt en gewijzigd vanuit een teksttranscript (ze iets laten zeggen wat ze niet echt zeiden), en het maken van audiocontent.

Volgens MicrosoftVAL-E is in de eerste plaats een “neuraal codec-taalmodel”, en is gebaseerd op EnCodec, dat Meta onthuld in oktober 2022. VALL-E maakt discrete audiocodeccodes van tekst en akoestische prompts, in tegenstelling tot andere tekst-naar-spraakmethoden die typisch spraak synthetiseren door golfvormen te manipuleren. Het verwerkt hoe een persoon klinkt, splitst de relevante gegevens op in afzonderlijke componenten (ook wel “tokens” genoemd) met behulp van EnCodec, en gebruikt vervolgens trainingsgegevens om te matchen met wat het “weet” over hoe die stem zou kunnen klinken als het andere zinnen zou uitspreken dan het monster van drie seconden.

Microsoft heeft de spraaksynthesefunctionaliteiten van VALL-E getraind met behulp van Meta’s LibriLight-audiobibliotheek. Het bevat 60.000 uur aan Engelstalige spraak van meer dan 7.000 sprekers, voornamelijk afkomstig uit audioboeken van het publieke domein van LibriVox. De stem in de sample van drie seconden moet sterk lijken op een stem in het leeralgoritme voor VALL-E om een ​​goed resultaat te produceren.

De Amerikaanse technologiegigant biedt tientallen audiovoorbeelden van het AI-model in actie op de VALL-E voorbeeld website. De dataset “Speaker Prompt” is de audio van drie seconden die aan VALL-E wordt gegeven en die moet proberen te emuleren. De “Ground Truth” is een eerder opgenomen versie van diezelfde spreker die een specifieke zin uitspreekt voor vergelijkende doeleinden (een beetje zoals de “controle” in het experiment). Het “Baseline”-voorbeeld wordt gegenereerd door een traditionele tekst-naar-spraak-synthesemethode en het “VALL-E”-voorbeeld wordt gegenereerd door het VALL-E-model.

Microsoft VALL E blokschema Microsoft VALL-E Microsoft

Een blokschema van VALL-E zoals weergegeven in de voorbeeldwebsite door Microsoft-onderzoekers
Fotocredit: Microsoft

Onderzoekers leverden alleen het drie seconden durende “Speaker Prompt” -voorbeeld en een tekenreeks (wat ze zouden willen dat de stem zegt) in VALL-E om die resultaten te krijgen. Sommige VALL-E-resultaten lijken door de computer gegenereerd, maar andere kunnen verkeerd worden begrepen voor menselijke spraak, wat het doel van het model is. Vanwege het potentieel van VALL-E om misstanden en bedrog aan te wakkeren, heeft Microsoft de VALL-E-code niet beschikbaar gemaakt voor anderen om te verkennen. De onderzoekers lijken zich bewust te zijn van de mogelijke sociale schade die deze technologie kan veroorzaken.

Ze schrijven in de conclusie van de paper: “Aangezien VALL-E spraak zou kunnen synthetiseren die de identiteit van de spreker behoudt, kan het potentiële risico’s met zich meebrengen bij misbruik van het model, zoals het vervalsen van stemidentificatie of het nabootsen van een specifieke spreker. Om dergelijke risico’s te verminderen, is het mogelijk om een ​​detectiemodel te bouwen om te onderscheiden of een audioclip is gesynthetiseerd door VALL-E. We zullen ook de Microsoft AI-principes in de praktijk brengen bij het verder ontwikkelen van de modellen.”


Affiliate-links kunnen automatisch worden gegenereerd – zie onze ethische uitspraak voor details.

Bekijk het laatste nieuws van de Consumer Electronics Show op Gadgets 360 op onze CES 2023 middelpunt.


Poco C55 getipt om een ​​rebranded Redmi 12C te worden, die naar verwachting binnenkort wordt gelanceerd

Aanbevolen video van de dag

CES 2023: Lenovo Tab Extreme, Smart Paper en meer onthuld

Leave a Reply

Your email address will not be published. Required fields are marked *