Samisk språk og IT – språkteknologi

All utvikling innen IKT i offentlig sektor skal bygge på prinsippet om universell utforming. Når det gjelder samisk handler dette om at samisk tegnsett kan brukes, at samiske navn kan skrives korrekt i offentlige registre, at det utvikles programvare som støtter samisk språk, og at offentlig informasjon er tilgjengelig på samisk.

All utvikling innen IKT i offentlig sektor skal bygge på prinsippet om universell utforming. Dette skal gi alle brukere merverdi ved bruk av teknologien. I samisk sammenheng handler dette om at det legges til rette for bruk av samisk tegnsett, at samiske navn kan skrives korrekt i offentlige registre, at det utvikles programvare som støtter samisk språk og at offentlig informasjon er tilgjengelig på samisk.

For de fleste vil ny teknologi, som for eksempel automatisering av tjenester ved bruk av internett, gjøre hverdagen enklere. Å sikre tilgang til den nye teknologien også for samiskspråklige er av stor betydning både for deltakelsen i samfunnet, og for utviklingen av samisk språk. Offentlig sektor bør sørge for at IKT- og nettbaserte tjenester ikke fører til nye barrierer.

Tegnsettet som skaper utfordringer er Áá Čč Đđ Ŋŋ Šš Ŧŧ Žž (nordsamisk) Áá (lulesamisk) Ïï (sørsamisk) (og i tillegg andre tegn i de andre samiske språkene som ikke er i bruk i Norge). Det har vært en positiv utvikling de siste årene når det gjelder samisk tegnsett og IKT. Samisk er nå implementert som eget valg i de mest brukte operativsystemene.

Den største utfordringen i dag er samisk i offentlige registre. Dette gjelder blant annet Brønnøysundregistrene, Folkeregisteret og NAV. Gamle systemer er ikke tilrettelagt for samiske bokstaver, og betyr at navn og adresser med samiske bokstaver ikke registreres korrekt i registrene, og at det ikke er mulig å kommunisere på samisk med brukeren, f.eks. ved elektroniske skjemaer.

 

Krav til bruk av felles tegnsett for offentlige virksomheter

Referansekatalogen for IT-standarder i offentlig sektor er etablert for å bedre samhandlingen mellom IT-systemer i offentlig sektor, for å redusere bindinger til enkeltleverandører og for å bidra til likebehandling og inkludering av alle innbyggere, uavhengig av hva slags programvare eller programvareplattform hver enkelt benytter. Den inneholder krav alle statlige virksomheter skal forholde seg til ved utvikling av sine IT-tjenester, og er anbefalt for kommunal sektor. Referansekatalogen er besluttet av fornyings- og administrasjonsministeren, og er et uttrykk for regjeringens IT-politikk. Til grunn for beslutningen ligger anbefalinger fra Standardiseringsrådet, et bredt sammensatt rådgivende organ med representasjon fra statlige og kommunale virksomheter.

I referansekatalogen fra juni 2009 framkommer det som et krav at UTF-8, som er et tegnsett som støtter de samiske tegnene, alltid skal brukes ved større omlegginger, nyetablering eller videreutvikling av fagsystemer, jf. referansekatalogens punkt 1.1.4. Dette vil innebære at forvaltningens fagsystemer etter hvert vil få full støtte for samiske tegn.

Imidlertid vil dette ta tid, for levetiden til det offentliges IT-systemer er lang og arbeidet med å erstatte dem svært komplekst og kostbart. Altinn og Brønnøysundregistrene er for eksempel godt i gang med å forberede overgangen til UTF-8, men vil allikevel ikke kunne tilby samiske tegn før i 2015.

Overgangen til UTF-8 må koordineres for å gi en samordningsgevinst. Det er derfor i refreansekatalogen sagt at utveksling av data mellom offentlige virksomheter fra 1.1.2012 som et minimum skal skje med begrenset versjon av UTF-8, supplert med ytterligere 6 nordsamiske tegn i store og små representasjoner. Dette vil ikke garantere for støtte for samiske tegn i offentlige registre og systemer, men det vil medvirke til en raskere overgang til felles tegnsett. På den måten vil alle fagsystemer og utveksling av informasjon mellom disse på sikt støtte de samiske tegnene.

Kravet er foreslått å bli en del av forskrift om IT-standarder i offentlig forvaltning. Forslaget har vært på høring. Ved en ikrafttredelse blir kravet obligatorisk også for kommuner og fylkeskommuner.

Språkteknologi

Språkteknologi er en tverrvitenskapelig disiplin og bygger blant annet på kunnskap innen informasjonsteknologi, lingvistikk, kunstig intelligens, fonetikk og kognitiv psykologi. Språkteknologi blir vanligvis delt inn i datalingvistikk og taleteknologi. Innen datalingvistikken konsentrerer en seg hovedsakelig om analyser av skrevet tekst, som blant annet vil åpne for utvidet søkemuligheter på internett og automatisk oversettelse.

Taleteknologien handler om databehandling av menneskelig tale, det vil si særlig talegjenkjenning og talesyntese. Tale har vist seg å være en effektiv måte å presentere informasjon på. Taleprogram kan gi personer med lese- og skrivevansker tilgang til ulike typer tekster, fra fagbøker til aviser. I samisk sammenheng kan talesyntese brukes som tilleggsverktøy i kombinasjon med ordinære korrekturprogram og støtte både lese- og skriveprosessen. I tillegg vil talesyntese kunne bli brukt som grunnlag for å utvikle et moderne tjenestetilbud på mange felt.

Språkutviklingsarbeidet vil ha stor nytte av språkteknologi. Det gjelder hjelpemidler til å ta fram ny terminologi, lage nye og bygge ut eksisterende ordbøker, nye hjelpemidler i språkopplæring på alle nivå (for eksempel digitale ordbøker), og verktøy for å bruke samisk i nye sammenhenger. Språkteknologien vil være en svært viktig hjørnestein i arbeidet for å styrke og vitalisere samisk språk.

Grammatikkbasert språkteknologi som tekstprosesserings-program, pedagogiske program, digitale ordbøker og syntetisk tale er en forutsetning for at språk skal kunne overleve som bruksspråk i dagens digitale verden. Et språk må ha en mengde ressurser for å fungere som administrasjons- og kommunikasjonsspråk. Her står minoritetsspråk overfor en helt annen situasjon enn majoritetsspråk.

Språkteknologi vil gjøre arbeidet for samiske språkarbeidere og språkbrukere lettere og raskere. Det gjelder for eksempel korrekturverktøy for raskere å finne skrivefeil, elektroniske korpus for å finne termkandidater og eksempler på oversettelser (vil gjøre det raskere å skrive ordbøker), hjelpemidler for tolker, maskinoversettelse fra for eksempel nordsamisk til lulesamisk for å gjøre det raskere å produsere lærebøker på lulesamisk, og maskinoversettelse fra samisk til norsk for å gjøre det mulig å bruke samisk som administrasjonsspråk i flere sammenhenger. Språkteknologien skal gjøre det mulig å få mer gjort med mindre arbeid.

Samiske korrekturverktøy er viktig for å sikre de samiske språkene en plass i det moderne IKT-samfunnet, og vil være til hjelp for mange samisktalende som tidligere ikke har kunnet eller våget å skrive sitt eget språk.

 

Divvun – samiske språkverktøy 

Kunnskapsdepartementet, Kommunal- og moderniseringsdepartementet og Sametinget har siden 2004 finansiert Divvun-prosjektet.

Divvun har utviklet språkverktøy i form av elektronisk stavekontroll, korrekturprogram og pedagogisk programvare for ulike samiske språk. Divvun arbeider også med taleteknologi.

De første samiske korrekturverktøyene (versjon 1.0) ble lansert i desember 2007. Korrekturverktøyene inneholder stavekontroll og orddeling for nord- og lulesamisk.  Divvun 2.0 med støtte for sørsamisk ble lansert i desember 2010.

Divvun er tilknyttet Senter for samisk språkteknologi ved Universitetet i Tromsø. Sametinget har en sentral rolle i styringen av Divvun.

Divvuns produkter er tilgjengelig på nett, og kan brukes fritt.

Divvun 

 

Senter for samisk språkteknologi ved Universitetet i Tromsø

Senter for samisk språkteknologi – Giellatekno – ligger under Institutt for språkvitenskap ved Universitetet i Tromsø. Giellatekno og Divvun er samlokalisert.

Gielleatekno har som mål å utarbeide grunnleggende analyseverktøy for ulike samiske språk, og å lage program og språkressurser til bruk i forskning, undervisning, og for samiske språkbrukere generelt. Giellatekno arbeider også med utvikling av verktøy for maskinoversettelse. Blant verktøyene som er utviklet er:

Åarjelsaemien-daaroen digibaagkoeh, en digital ordbok sørsamisk-norsk, ble lansert 5. februar 2010 i et samarbeid mellom Divvun og Giellatekno.

OAHPA! er et interaktivt språklæringsprogram laget for nordsamisk, med norsk og finsk som hjelpespråk. Flere av delprogrammene er tilgjengelige på sørsamisk, med norsk, svensk og nordsamisk som hjelpespråk.

Giellatekno