Meld. St. 31 (2019–2020)

Samisk språk, kultur og samfunnsliv — Digitalisering

Til innholdsfortegnelse

4 Samisk språkteknologi

Vi omgir oss med stadig flere digitale produkter og tjenester som inneholder språkteknologi. Dette er teknologi som for eksempel kan forstå menneskelig tale og oversette tale til tekst og omvendt, teknologi som automatisk kan oversette tekster mellom språk, eller som kan analysere og finne mening i store mengder ustrukturert data. Det er slik teknologi som ligger inne i stave- og retteprogrammene i datamaskinene våre, i løsninger for automatisk oversettelse, i virtuelle assistenter og mobiltelefoner, i intelligente nettsøk, kunstige stemmer, osv.

En rapport fra 20121 hevder at en tredjedel av de 6000 språkene som finnes i dag, ikke vil overleve overgangen til det globale digitale informasjonssamfunnet. Dette er en utfordring som også nynorsk og bokmål står overfor, og som regjeringen tar opp i Prop. 108 L (2019–2020) Lov om språk (språklova) som ble lagt fram i mai 2020. For de samiske språkene innebærer dette at språkenes overlevelse er avhengig av at språkbrukerne kan og vil velge samisk når de bruker for eksempel mobiltelefon eller datamaskin.

Samisk språkutvalg understreket at språkteknologi er en forutsetning for at samiske språk skal kunne overleve som bruksspråk i et moderne samfunn. Språkutvalget peker på at dette blant annet handler om å kunne bruke samiske språk og samiske bokstaver i all IKT-sammenheng.

For å styrke samisk språkteknologi etablerte Sametinget Divvun i 2004. Divvun er en forskings- og utviklingsgruppe ved Universitetet i Tromsø – Norges arktiske universitet, finansiert over Kommunal- og moderniseringsdepartementets budsjett. Gruppa samarbeider med Sametinget. Divvun har utviklet og arbeider med å holde ved like språkteknologiske verktøy for de samiske språksamfunnene, inkludert stavekontroller, grammatikkontroller, tastaturer, ordbøker og andre digitale og nettbaserte verktøy. Alle Divvuns verktøy blir gjort gratis tilgjengelige og kan lastes ned fra deres nettsider eller som apper, de aller fleste av dem som åpen kildekode.

Senter for samisk språkteknologi – Giellatekno, ved Universitetet i Tromsø – Norges arktiske universitet, bidrar også aktivt til å øke digitaliseringen av samisk. Giellatekno har som mål å utarbeide grunnleggende analyseverktøy for ulike samiske språk, og lager program og språkressurser til bruk i forskning og utdanning, og for samiske språkbrukere generelt. Giellatekno arbeider også med utvikling av verktøy for maskinoversettelse. Giellatekno har dessuten laget flere interaktive programmer for personer som ønsker å lære seg samisk.

Sammen har Divvun og Giellatekno sikret at samiske språkbrukere kan bruke språket sitt i daglig kommunikasjon med hverandre og med myndighetene på ulike digitale plattformer. De har også utviklet flere verktøy, for eksempel maskinoversettelse fra nordsamisk til norsk, som gjør at samisktalende kan skrive på nordsamisk også i sammenhenger hvor ikke alle potensielle lesere kan samisk. Samisk høgskole har for eksempel valgt å produsere det meste av sitt nettstedsinnhold på nordsamisk og deretter maskinoversette det til norsk.

Den største utfordringen som møter Divvun og Giellatekno er at store internasjonale selskaper ikke har åpne grensesnitt, åpne ressurser og tilgjengelige standarder. Dette gjør at produktene Divvun og Giellatekno utvikler ikke kan tilbys som standard programvare til datamaskiner og mobiltelefoner, men må lastes ned av hver enkeltbruker. Divvun, Kommunal- og moderniseringsdepartementet og Sametinget samarbeider om hvordan man skal gå i dialog med de store internasjonale selskapene for å løse denne utfordringen.

De språkteknologiske ressursene og programmene laget av Divvun og Giellatekno danner grunnlaget for digital bruk av samisk. Stavekontrollene for samiske språk er lastet ned i overkant av 20 000 ganger, og spiller dermed en sentral rolle i samisk tekstproduksjon. Termbanken satni.org og de samiske nettordbøkene Neahttadigisánit fikk i 2018 henholdsvis 100 000 og 2,7 millioner oppslag, noe som viser at tilgangen til digitale språkressurser er viktig for både profesjonelle brukere og hele språksamfunnet.

Sammenlignet med tilsvarende språksamfunn er det samiske språksamfunnet i en god situasjon: De fleste samiske språkene har tastatur tilgjengelig i de fleste operativsystem, og de har også retteprogram tilgjengelig for mange plattformer. Likevel er det mange som ikke vet at alle datamaskiner allerede har samiske tastaturer, eller hvilket tastatur de skal bruke.

4.1 Avlevering av samiske språkdata

For å kunne utvikle god samisk språkteknologi trenger man godt utviklede ordbøker og flere samiskspråklige lingvister og programmerere som kan være med på å utvikle gode ressurser. I tillegg trengs det mer grunnlagsdata, elektroniske skriftlige eller muntlige språkdata, såkalt korpus. Tilgang til et korpus som er større enn dagens er viktig for videreutvikling av eksisterende språkteknologiske tjenester for samisk, spesielt innenfor taleteknologi. På sikt er dette også viktig for utvikling av kunstig intelligens som forstår samisk.

De ressursene som er samlet inn ved Universitetet i Tromsø – Norges arktiske universitet er sammenstilt i et samisk korpus som eies av Sametinget, og forvaltes av Divvun. I dag samles dette korpuset hovedsakelig inn ved at ansatte ved Divvun gjør systematiske søk etter samiske tekster på nettet og etter norske tekster som er oversatt til samisk (såkalte paralleltekster). Det er ingen formell avlevering av tekster fra offentlige instanser.

I tillegg til det samiske korpuset hos Divvun har Språkbanken i Nasjonalbiblioteket en begrenset mengde fritt tilgjengelige datasett på samisk. Utviklermiljø kan fritt hente ut grunnlagsressursene og drive innovasjon og produkt- og tjenesteutvikling på grunnlag av disse.

Den norske pliktavleveringsloven er medienøytral, og Nasjonalbibliotekets samling omfatter derfor både tekst og tale i ulike formater: bøker, tidsskrifter, aviser, kringkasting, internett, osv. Det samiske materialet er tilgjengelig under de samme betingelsene som annet pliktavlevert materiale i Nasjonalbiblioteket, det vil si først og fremst for forsking og dokumentasjon, men tilgangen kan utvides ved at det blir inngått avtaler med de enkelte rettighetshaverne.

Det er grunn til å tro at det offentlige har langt mer data som kan brukes til utvikling av språkteknologi enn sektoren selv er klar over. Regjeringen vil derfor bidra til å øke bevisstheten om språkdata og språkressurser i det offentlige. Kulturdepartementet og Kommunal- og moderniseringsdepartementet har i fellesskap begynt å se på hvilke aktører og virkemidler som kan bidra til at det kan utvikles mer språkteknologi på samisk. Kommunal- og moderniseringsdepartementet har også forsterket informasjonsforvaltningsmiljøet i Digitaliseringsdirektoratet med ressurser som skal muliggjøre et nærmere samarbeid med Nasjonalbiblioteket og Språkrådet om strategier for å sikre at offentlige språkressurser kan brukes til språkteknologiske formål. Departementene vil fortsette dialogen og vurderinger av hvilke tiltak som kan være aktuelle.

Boks 4.1 Forskningsprosjektet «Maskinoversetting mellom samiske språk»

Forskningsrådets program SAMISK III ga i perioden 2014–2017 støtte til forskerprosjektet «Maskinoversetting mellom samiske språk». Hovedmålet for prosjektet var å lage et fungerende program for maskinoversetting fra nordsamisk til andre samiske språk. Det skulle også gi ny innsikt i samisk komparativ syntaks og ordforråd.

Prosjektet har resultert i en grammatisk modell for enaresamisk, maskinoversettingsprogram fra nordsamisk til tre andre samiske språk (sør-, lule- og enaresamisk) og eksperimentelle maskinoversettingsprogram fra disse språkene til nordsamisk. Oversettingsprogrammene er integrert i programvare for datamaskinstøttet oversettelse, sammen med andre hjelpemidler, som parallelle tekstsamlinger og tospråklige ordlister. I tillegg er den enaresamiske grammatikkmodellen tatt i bruk i andre program, som stavekontroll og e-ordbøker. Programmet har resultert i flere publikasjoner, og de grammatiske modellene og programmene som har blitt utarbeidet, vil også danne grunnlag for flere artikler i framtiden.

Fotnoter

1.

META-NET, De Smedt, Lyse, Gjesdal og Losnegaard (2012) Norsk i den digitale tidsalderen

Til forsiden