Djupinlärd talsyntes för uppläsning av lång och informationsrik text på svenska
Diarienummer | |
Koordinator | Kungliga Tekniska Högskolan - Språkbanken Tal |
Bidrag från Vinnova | 6 617 200 kronor |
Projektets löptid | oktober 2019 - oktober 2024 |
Status | Avslutat |
Utlysning | AI - Spets och innovation |
Ansökningsomgång | Från AI-forskning till innovation våren 2019 |
Viktiga resultat som projektet gav
Projektet "djupinlärd tasyntes" påbörjades i en tid då neural talsyntes var ganska ny, och det var ont om svenska neurala synteser. Huvudmålet med projektet var att utveckla en svensk djupinlärd talsyntes som klarar lång och informationsrik text, och helst utan att göra mer fel än traditionell syntes. Det målet nåddes. Projektets delmål var att ta fram svenska adapteringar i processkedjan (både träning och syntes), testa dem, och göra dem tillgängliga. Dessa mål uppnåddes, och verktyg och resurser förbereds nu för att släppas på forskningsinfrastrukturen Språkbanken Tal.
Långsiktiga effekter som förväntas
Projektet har bidragit till en rad resurser som ger stöd till svensk talsyntes, inklusive uttalslexikonet Braxen, textpreprocessningssystemet Sardin, adapteringar av talsyntesträningssystemet Matcha, ett svenskt testset för preprocessning och talsyntes av lång och informationsrik text, samt framsteg utvärdering av den här typen av talsyntes. Projektet har även bidragit till samarbeten inom forskning och industri. Arbetet med utvärdering har fått internationellt gehör, och projektgruppen arrangerar i januari ett av de prestigefyllda Dagstulh-seminarierna på temat.
Upplägg och genomförande
Den snabba utvecklingen under projekttiden har varit spännande och emellanåt komplicerad att följa. Ett av de större hinder vi trodde vi skulle behöva tackla - den dåliga kvaliteten av det steg som går från en tvdimensionell representation av ljud till svenskt ljud - löste sig själv under projekttiden: den processen fungerar nu bra genrellt, för alla språk. Andra hinder visade sig större än väntat. Vi lagt oväntat mycket resurser på juridik, där ett resultat är att vi MTM lyckats frigöra flera resurser för allmänt bruk, och ett annat att vi tvingades avbryta inspelningarna av en ny röst.