Öppna språkdata för att främja teknikutvecklingen och språken i Sverige
Diarienummer | |
Koordinator | Institutet för språk och folkminnen - Språkrådet |
Bidrag från Vinnova | 136 185 kronor |
Projektets löptid | november 2013 - juni 2014 |
Status | Avslutat |
Viktiga resultat som projektet gav
Projektets mål har varit att göra flera av Språkrådets ordlistor och lexikon fritt tillgängliga som öppna data för att stimulera utvecklingen av teknik som gagnar språken i Sverige och bidrar till ökad tillgänglighet till information och service. Det målet har uppfyllts genom att vi tillgängliggjort 28 direkt nedladdningsbara ordlistor och lexikon omfattande sammanlagt drygt 500 000 ord under licensen CC BY. Vi har dessutom listat ytterligare 175 ordlistor som vi tillgängliggör under CC BY vid beställning.
Långsiktiga effekter som förväntas
Följande lexikon och termlistor har gjorts direkt nedladdningsbara som öppna data på http://www.sprakochfolkminnen.se/sprak/sprak-och-it/oppna-sprakdata.html: Lexins minoritetsspråkslexikon: Svenskt lexikon + tvåspråkiga lexikon mellan svenska och 19 minoritetsspråk, ca 28 000 uppslagsord för varje språk (i vissa fall 5 000). Tolkordlista: Svensk basordlista, drygt 5 000 uppslagsord. Flerspråkiga termlistor: 6 st små och stora svensk-finska termlistor på sammanlagt drygt 10 000 ord. övriga 175 listade flerspråkiga termlistor kan beställas från Språkrådet.
Upplägg och genomförande
Publiceringen av de frigjorda språkresurserna har gjorts på basis av en systematisk inventering, prioritering, undersökning och bearbetning. De ordlistor som inte tidigare funnits i xml-format har översatts till xml via ett särskilt framtaget script. Språkrådet har också skapat bättre rutiner för hantering av nya resurser så att de kan beskrivas, underhållas och tillgängliggöras på ett systematiskt sätt i enlighet med principen att våra resurser ska vara så öppet tillgängliga som möjligt.