4 Tekst- og datautvinning
4.1 Generelt
Direktivet avdeling II (artikkel 3 til 7) inneholder nye unntak og avgrensninger fra den opphavsrettslige eneretten. Formålet med disse bestemmelsene er at det skal legges bedre til rette for et digitalt og grensekryssende miljø, samtidig som balansen mellom hensynet til rettighetshavere og brukere av verk og vernede arbeider ivaretas.
Ny teknologi gjør det mulig med automatisert datamaskinassistert analyse av informasjon i digital form, som for eksempel tekst, lyd, bilder eller data. Disse prosessene kalles tekst- og datautvinning (text and data mining). Tekst- og datautvinning innebærer at store mengder tekst og/eller data analyseres digitalt. Resultatet av utvinningen inneholder mønstre, sammenhenger og informasjon avledet fra datagrunnlaget.
Forskningsmiljøene anser denne teknologien som svært viktig. Tekst- og datautvinning benyttes i medisinsk forskning til for eksempel å kunne finne sammenhenger mellom gener og sykdommer. Også innen humanistiske fagområder benyttes tekst- og datautvinning, for eksempel innen digital humaniora. Ved å analysere store tekstmengder digitalt, kan hyppigheten av ord, begreper eller stavelser, og sammenhengen mellom disse, identifiseres. I språkteknologisk forskning og utviklingen av språkteknologi (som for eksempel automatisk oversettelse og taleteknologi) vil slik analyse være avgjørende for kvaliteten på resultatene. Også i kommersielle sammenhenger benyttes tekst- og datautvinning som grunnlag for utvikling av nye tjenester og ny teknologi.
Den teknologiske utviklingen de siste årene har ført til en diskusjon om hvorvidt tekst- og datautvinning er en del av prosessen ved å utvikle kunstig intelligens (KI). KI er et vidt begrep uten et entydig innhold, men brukes gjerne om mange former for algoritmer, maskinlæring, modeller og statistiske metoder. KI refererer til dataprogrammer og systemer som er i stand til å utføre oppgaver som vanligvis krever menneskelig intelligens. Dette omfatter evner som læring, problemløsning, mønstergjenkjenning, språkforståelse og beslutningstaking. KI-teknologi spenner fra enkle algoritmer til avanserte maskinlæringsmodeller og nevrale nettverk, og de kan utføre handlinger, fysisk eller digitalt, basert på tolkning og behandling av strukturerte eller ustrukturerte data, i den hensikt å oppnå et gitt mål.
Generativ KI er en underkategori av KI, og er en teknologi som kan lage nye data – som lyd, tekst og bilder – basert på eksisterende data. I 2018–2019 ble GPT-2 lansert av Open AI. Dette var en av de første store språkmodellene som viste potensialet for generativ KI i stor skala. Et nytt sprang i utviklingen skjedde høsten 2022, da Open AI lanserte samtaleroboten ChatGPT.
Store språkmodeller har på kort tid blitt etablert som en generisk teknologi som kan brukes til å løse en lang rekke oppgaver. De kan trekke ut verdifull innsikt fra enorme datasett. Videre kan språkmodellene kombineres med bildemodeller og lydmodeller i store KI-tjenester som kan «snakke» med brukerne på vanlig språk og analysere og generere tekst, lyd og bilder. Hvis man ved bruk av et slikt system for eksempel skal produsere et bilde i Edvard Munch-stil, må programmet «trenes» på en svært stor mengde Munch-bilder, slik at det kan lage et nytt bilde basert på gjentagende formuttrykk, fargebruk og bildestil (statistikk).
Flere av språkmodellene som brukes i dag, kan fremstå som norskspråklige og kunnskapsrike, men de har ofte begrenset språklig kvalitet og kulturelle skjevheter. Modellene er gjerne utviklet av store teknologiselskaper i USA og Kina og kan være påvirket av selskapenes teknologiske, språklige og kulturelle valg. Det er også usikkert i hvilken grad opphavsrettslige hensyn er ivaretatt ved trening av modellene.
I mange tilfeller vil tekst- og datautvinning innebære handlinger som omfattes av opphavsretten, herunder av sui generis-vernet for databaser. Slike utvinningsprosesser kan medføre eksemplarfremstilling av verk eller arbeider, uttrekk av innhold fra databaser eller begge deler.
Ved analysene fremstilles det enten et eksemplar av tekst eller annet datamateriale som skal være grunnlag for utvinningen lokalt på maskinene til den som foretar analysen, eller materialet strømmes eller fremstilles på eksterne plattformer. Dersom det ikke finnes unntak eller avgrensninger som omfatter denne utnyttelsen, kreves det i utgangspunktet tillatelse fra rettighetshaverne for å foreta handlingene.
Ikke all tekst- og datautvinning krever rettighetsklarering. Dette gjelder for eksempel når teknologien benyttes på rene faktaopplysninger eller på data som ikke er vernet av opphavsrett. Det finnes også former for tekst- og datautvinning som ikke innebærer eksemplarfremstilling, slik som analyser basert på et mindre uttrekk fra databaser eller tekster. Eksempler på dette kan være omstokking av setninger (såkalt «scrambling»), utdrag fra tekstfragmenter som søkeord med kontekst (såkalte «konkordanser») eller frekvenslister over ord eller ordsekvenser (såkalte «n-grammer»).
4.2 Gjeldende rett
Åndsverkloven og forskrift til åndsverkloven inneholder regler som legger til rette for tekst- og datautvinning i enkelte, nærmere spesifiserte situasjoner.
Åndsverkloven § 4 avgrenser eneretten etter § 3 ved å tillate fremstilling av visse midlertidige eksemplar uten rettighetsklarering. Dette er fremstillinger som er tilfeldige eller forbigående, og som utgjør en integrert og vesentlig del av en teknisk prosess. Den midlertidige eksemplarfremstillingen må ha som eneste formål å muliggjøre enten lovlig bruk av verket eller en overføring i nettverk av et mellomledd på vegne av tredjeparter. Det er en forutsetning at eksemplarfremstillingen ikke har selvstendig økonomisk betydning, og avgrensningen omfatter ikke midlertidig eksemplarfremstilling av datamaskinprogrammer eller databaser. Selv om tekst- og datautvinning er en teknisk prosess, vil kravene i § 4 om at eksemplarfremstillingen både skal være tilfeldig og midlertidig (forbigående) ofte innebære at en fullstendig utvinningsprosess ikke kan hjemles i denne bestemmelsen.
Etter § 49 kan departementet i forskrift fastsette regler som gir arkiv, bibliotek, museer og undervisnings- og forskningsinstitusjoner rett til å fremstille eksemplar av verk for konserverings- og sikringsformål, forskningsformål og andre særskilte formål. Bestemmelsen gjelder ikke for ervervsmessig bruk.
I forskrift til åndsverkloven kapittel 1 er det gitt nærmere regler om eksemplarfremstilling og bruk av verk og arbeider som er tillatt i de nevnte institusjonene. Forskriften § 4 regulerer to områder hvor det på visse vilkår er åpnet opp for eksemplarfremstilling av verk og andre vernede arbeider til forskningsformål, herunder ved bruk av tekst- og datautvinningsmetoder. I første ledd fremgår det at departementet kan gi undervisnings- og forskningsinstitusjoner tillatelse til eksemplarfremstilling, også i andre formater enn originaleksemplaret. Denne bestemmelsen gir kun hjemmel til at undervisnings- og forskningsinstitusjoner, etter søknad til departementet, kan fremstille eksemplar til forskningsformål, eksempelvis for å dekke spesielle behov innen språkforskning. Vilkåret er at eksemplarfremstillingen ikke skal føre til spredning i strid med rettighetshaverens interesser, eller på annen måte komme i konflikt med rettighetshavers egen utnyttelse av verket. Bestemmelsen åpner ikke opp for at departementet kan gi tillatelse til å fremstille eksemplar til andre formål.
Etter forskriften § 4 andre ledd kan Nasjonalbiblioteket benytte samlingene sine, herunder materiale som er avlevert etter pliktavleveringslova, som grunnlag for språklige korpora (samlinger av tekst og/eller tale, som oftest digitale) for forskningsformål. Dette omfatter også eksemplarfremstilling i andre formater enn originaleksemplaret, som digitale kopier og avledede versjoner. Formålet med bestemmelsen er blant annet å legge til rette for videreutvikling av Språkbanken, som Nasjonalbiblioteket har ansvaret for i samarbeid med Språkrådet, slik at tilfanget av gode tekst- og talekorpora blir større. Et korpus vil ofte være bearbeidet sammenlignet med det originale tekstmaterialet det bygger på, for eksempel ved at ordklasser og setningsstrukturer er markert og identifisert (annotert).
Utover dette inneholder ikke åndsverkloven avgrensningsbestemmelser som åpner for bruk av opphavsrettslig vernede verk og arbeider til tekst- og datautvinning uten forutgående rettighetsklarering.
4.3 Digitalmarkedsdirektivet
I digitalmarkedsdirektivet er eksisterende unntak og avgrensninger forsøkt klargjort og harmonisert, slik at det bedre legges til rette for teknologisk utvikling.
Direktivet artikkel 2 nr. 2 definerer «tekst- og datautvinning» slik:
«[…] enhver automatisert analytisk metode som tar sikte på å analysere tekst og data i digital form for å framskaffe opplysninger som omfatter, men ikke er begrenset til mønstre, utviklingstrekk og korrelasjoner.»
For å legge til rette for tekst- og datautvinning inneholder direktivet artikkel 3 og 4 obligatoriske unntak og avgrensninger fra den opphavsrettslige eneretten. Disse reglene skal gjøre det mulig å anvende teknologien uten rettighetsklarering av verk og arbeider som inngår i en tekst- og datautvinningsprosess.
Det fremgår av disse artiklene at det skal gis unntak fra eneretten til eksemplarfremstilling av verk og andre vernede arbeider etter opphavsrettsdirektivet (2001/29/EF) artikkel 2 og eksemplarfremstilling av databaser vernet etter databasedirektivet (96/9/EF) artikkel 5 bokstav a og 7 nr. 1. Videre skal det gis unntak fra eneretten til eksemplarfremstilling av pressepublikasjoner etter digitalmarkedsdirektivet artikkel 15 nr. 1.
Digitalmarkedsdirektivet artikkel 3 regulerer tekst- og datautvinning til forskningsformål. Medlemsstatene skal innføre unntak eller avgrensning fra eneretten for eksemplarfremstilling og uttrekk av verk utført av forskningsorganisasjoner og kulturarvinstitusjoner.
Definisjonen av «forskningsorganisasjon» og «kulturarvinstitusjon» fremgår av artikkel 2. Etter artikkel 2 nr. 1 skal en forskningsorganisasjon forstås som et universitet, herunder dets bibliotek, et forskningsinstitutt eller enhver annen enhet hvis primære mål er å drive vitenskapelig forskning eller utføre utdanningsvirksomhet som også omfatter vitenskapelig forskning. Forskningsorganisasjonene må videre drives på ideelt grunnlag eller ved å reinvestere alt overskudd i sin vitenskapelige forskning, eller ivareta en oppgave i allmennhetens interesse som er anerkjent av staten. Videre må organisasjonene drives på en slik måte at et eventuelt foretak som utøver en avgjørende innflytelse på organisasjonen, ikke har prioritert tilgang til resultatene av den vitenskapelige forskningen.
Definisjonen av en kulturarvinstitusjon følger av artikkel 2. nr. 3, og omfatter offentlig tilgjengelige bibliotek eller museum, arkiv og film- og lydarkiv.
Vilkåret for at en forskningsorganisasjon eller kulturarvinstitusjon kan benytte avgrensningen, er at de har lovlig tilgang til verket eller materialet som benyttes, og at formålet er tekst- og datautvinning for vitenskapelig forskning.
Forskningsorganisasjonene og kulturarvinstitusjonene skal alltid kunne fremstille eksemplar til tekst- og datautvinningsformål av alle verk de har lovlig tilgang til, med unntak av datamaskinprogrammer, jf. artikkel 3 nr. 1 (hvor det ikke gis unntak fra eneretten til datamaskinprogram etter dataprogramdirektivet (2009/24/EF) artikkel 4 nr. 1 bokstav a og b.
Kopier av verk som blir fremstilt for tekst- og datautvinning etter artikkel 3 nr. 1 skal lagres på en måte som sikrer et egnet sikkerhetsnivå, og kan oppbevares for bruk i vitenskapelig forskning, herunder for å kunne kontrollere forskningsresultatene, jf. nr. 2.
Rettighetshavere kan ikke motsette seg tekst- og datautvinningen, men det følger av artikkel 3 nr. 3 at de skal kunne anvende tiltak for å garantere sikkerheten og integriteten til nettverkene og databasene der verk og andre vernede arbeider ligger. Slike tiltak skal ikke gå lenger enn det som er nødvendig for å oppnå dette målet.
Etter artikkel 3 nr. 4 skal medlemsstatene oppfordre rettighetshavere, forskningsorganisasjonene og kulturarvinstitusjonene til i fellesskap å definere en felles beste praksis for forpliktelsene og tiltakene nevnt i artikkel 3 nr. 2 og 3.
Et mer generelt unntak eller avgrensning for tekst- og datautvinning finnes i artikkel 4. Denne bestemmelsen gjelder for alle, både privatpersoner, foretak, organisasjoner og myndigheter, og kan i tillegg til kategoriene som er omfattet av artikkel 3, også omfatte eksemplarfremstilling av datamaskinprogram til tekst- og datautvinningsformål.
For at denne fribruksretten skal kunne anvendes, må tre vilkår være oppfylt. For det første må bruken være i form av eksemplarfremstilling av eller uttrekk fra verk eller andre vernede arbeider. For det andre må disse verkene og arbeidene være lovlig tilgjengelige. Videre kommer unntaket eller avgrensningen bare til anvendelse i de tilfeller rettighetshaveren ikke uttrykkelig har nedlagt forbud mot slik bruk. For nettbasert materiale bør slik reservasjon gjøres ved bruk av maskinleselige metoder.
Det følger av artikkel 4 nr. 2 at eksemplar og uttrekk som er gjort i henhold til artikkel 4 nr. 1, kan oppbevares så lenge det er nødvendig for tekst- og datautvinningen.
4.4 Andre nordiske land
I Danmark er reglene om tekst- og datautvinning i artikkel 2 nr. 2 og artikkel 3 og 4 gjennomført i to nye paragrafer. De nye bestemmelsene omfatter også nærstående rettigheter, herunder til fotografiske bilder.
Ophavsretsloven § 11 b stk. 1 inneholder definisjonen av tekst- og datautvinning. Den generelle bestemmelsen om tekst- og datautvinning er gjennomført i stk. 2 og adgangen for rettighetshaver til å forbeholde seg denne retten er gjennomført i stk. 3. Ophavsretsloven § 11 b stk. 4 regulerer hvor lenge eksemplarene kan oppbevares. I stk. 5 er det tatt inn unntak fra stk. 2 til 4 for tekst- og datautvinning som har vitenskapelig forskning som formål. Adgangen til tekst- og datautvinning i vitenskapelig forskning er gjennomført i en egen bestemmelse i ophavsretsloven § 11 c.
I Sverige er reglene om tekst- og datautvinning i artikkel 2 nr. 2 og artikkel 3 og 4 gjennomført i tre nye bestemmelser i upphovsrättslagen. De nye bestemmelsene omfatter også nærstående rettigheter, herunder til fotografiske bilder.
Upphovsrättslagen 15 a § regulerer en generell rett til eksemplarfremstilling til tekst- og datautvinningsformål og gjennomfører direktivet artikkel 4. Upphovsrättslagen 15 b § regulerer den eksemplarfremstilling for tekst- og datautvinning som forskningsorganisasjoner og kulturarvinstitusjoner selv kan gjøre, jf. direktivet artikkel 3. Upphovsrättslagen 15 c § inneholder definisjoner av begrepene «tekst- og datautvinning» og «forskningsorganisasjon» i tråd med definisjonene i direktivet artikkel 2 nr. 1 og 2.
I Finland er artikkel 3 og 4 gjennomført samlet i en ny bestemmelse i upphovsrättslagen 13 b §. Den nye bestemmelsen omfatter også nærstående rettigheter, herunder til fotografiske bilder.
Paragrafens første ledd gjennomfører artikkel 4 og fastsetter en generell regel om adgang til eksemplarfremstilling til tekst- og datautvinningsformål, forutsatt at opphaver ikke uttrykkelig har forbeholdt seg retten til slik eksemplarfremstilling. Paragrafens andre ledd gjennomfører artikkel 3. Eksemplar som er fremstilt for tekst- og datautvinningsformål til vitenskapelig forskning, kan bevares og benyttes til verifisering av forskningsresultatene og for senere vitenskapelig forskning, forutsatt at de kun er tilgjengelige for de som har rett til det.
I den finske loven er ikke definisjonen av «tekst- og datautvinning» i artikkel 2 nr. 2 inntatt i selve loven, men fremkommer av merknadene til bestemmelsen.
4.5 Høringsnotatet
I høringsnotatet foreslo departementet å gjennomføre direktivets definisjon av tekst- og datautvinning i artikkel 2 nr. 2 i en egen bestemmelse i § 50 d. Den nye avgrensningsbestemmelsen om tekst- og datautvinning til forskningsformål i artikkel 3 ble foreslått gjennomført som ny § 50 f og den generelle adgangen til å benytte lovlig tilgjengelige verk og arbeider til tekst- og datautvinning i artikkel 4 som ny § 50 e.
Definisjonen av «tekst- og datautvinning» ble forenklet noe, sammenlignet med definisjonen i direktivet, men var likevel ment å omfatte det samme som direktivet artikkel 2 nr. 2.
Høringsnotatet tok overordnet opp hvordan adgangen til å gjennomføre tekst- og datautvinningsprosesser kan få betydning for lovligheten av å trene opp språkmodeller og kunstig intelligente systemer. På tidspunktet for høringen var EUs KI-forordning ((EU) 2024/1689) ennå ikke vedtatt, og det pågikk en debatt om den opphavsrettslige relevansen av opptrening av generative språkmodeller. Ett av spørsmålene var om slik bruk er forenlig med tretrinnstesten etter blant annet Bernkonvensjonen artikkel 9 (2). Direktivets bestemmelser er obligatoriske å gjennomføre, og på bakgrunn av den pågående teknologiske og juridiske utviklingen foreslo departementet en direktivnær gjennomføring. Det ble samtidig understreket at bestemmelsene må tolkes i lys av rettsutviklingen i EU.
4.6 Høringen
4.6.1 Generelt
Det er svært mange innspill om tekst- og datautvinningsbestemmelsene i høringen, og alle berører konsekvensene forslaget kan få for trening av store språkmodeller og kunstig intelligens.
Digitaliseringsdirektoratet (Digdir) uttrykker støtte til forslaget, og er særlig positive til innføringen av tekst- og datautvinningsavgrensningene i norsk rett:
«Etter vår erfaring, er det nødvendig å ha tilgang på variert treningsdata for å reflektere Norges språklige mangfold, herunder verdier, normer og kommunikasjonsmønstre, i KI-systemer. Dette vil både legge til rette for å bygge KI-løsninger som kan samhandle og kommunisere med norske borgere på en naturlig måte og vil samtidig forebygge språklige fordommer og skjevheter i løsningene. Innføring av tekst- og datautvinningsunntaket vil bidra til å tilgjengeliggjøre mer treningsdata til utviklingen av slike KI- løsninger.»
Handelshøyskolen BI, IKT-Norge, Nasjonalarkivet, Nasjonalbiblioteket, Forsvarets forskningsinstitutt, Google Norway, KS, Norsk Bibliotekforening, NRK, Språkrådet, Universitets- og høgskolerådet (UHR) og VID vitenskapelige høgskole, støtter i hovedsak departementets forslag til gjennomføring, men har enkelte innspill til presiseringer.
Nasjonalarkivet understreker viktigheten av at alle arkivinstitusjoner omfattes av tekst- og datautvinningsbestemmelsene, uavhengig av om de er å regne som offentlige eller private arkiv. Forskerforbundet mener at forskere bør sikres enkel tilgang til materiale som trengs for forskning, og at forslaget til § 50 f ivaretar dette behovet. Forsvarets forskningsinstitutt (støttet av Forsvarsdepartementet) understreker også at disse bestemmelsene er spesielt interessante for dem, og Handelshøyskolen BI er positive fordi bestemmelsene etter deres syn er i overenstemmelse med den teknologiske utviklingen og behovene for nye anvendelsesområder knyttet til digital forskningsmetodikk.
Google Norway uttaler at tekst- og datautvinning er en nøkkelfaktor for å fremme innovasjon, særlig når det kommer til utvikling av kunstig intelligens.
KS er fornøyd med at rettigheter og begrensninger knyttet til tekst- og datautvinning tydeliggjøres, og mener det er viktig å tilrettelegge for tekst- og datautvinning av norsk materiale for å kunne utvikle gode digitale tjenester basert på Norges språk og kultur.
Nasjonalbiblioteket støtter generelt forslaget til gjennomføring og legger til grunn at gjennomføringsbestemmelsene blir det opphavsrettslige grunnlaget for Nasjonalbibliotekets fremtidige aktivitet innen språkteknologi. Nasjonalbiblioteket støtter videre en gjennomføring av bestemmelsene i tråd med direktivets uttrykte formål, som er å fjerne rettslig usikkerhet rundt tekst- og datautvinning, og sikre konkurransedyktige formål på forskning innen tekst- og datautvikling i EØS-området.
NRK viser til at deres arkiv, bestående både av tekst, lyd og audiovisuelt innhold, kan utgjøre et sentralt bidrag til tekst- og datautvinning, inkludert utvikling av kunstig intelligens. Arkivet kan videre være en del av språklige korpus til opplæring av språkmodeller, og innholdet kan bidra til at det som skapes av KI-modeller har høyere kvalitet fordi det er basert på pålitelig informasjon.
Rettighetshaversiden, med blant andre Creo, Den norske Forfatterforening, Forfatterforbundet, Grafill, GramArt, Kunstnernettverket (med støtte fra blant andre Norsk faglitterær forfatter- og oversetterforening (NFFO), Norsk filmforbund og Norsk jazzforbund), Mediebedriftenes Landsforening (MBL) Musikkforleggerne, Norges Fotografforbund, Norsk Journalistlag (NJ), Norsk Komponistforening, Norsk Oversetterforening, TONO og TV 2, viser blant annet til at direktivet ble vedtatt før generativ KI ble allment tilgjengelig, slik at konsekvensene for rettighetshaverne ikke ble tilstrekkelig utredet. Flere av disse høringsinstansene stiller seg uforstående til at departementet nevner generativ KI, og eksplisitt ChatGPT, som eksempler på hva som omfattes av reguleringen.
Også Kopinor understreker at tekst- og datautvinningsbestemmelsene får alvorlige konsekvenser for rettighetshaverne:
«Bruken av generativ kunstig intelligens kommer på flere områder i konflikt med rettighetshavernes ideelle og økonomiske interesser. Innhold som lages av KI- modeller kan komme i direkte konkurranse med – eller snylte på – de originale verkene skapt av opphavere som er brukt i opptreningen av modellen.»
Norwaco viser også til at kunstig intelligens, og særlig generativ KI, truer det kreative økosystemet og skaper stor bekymring blant rettighetshaverne. Kopinor og Norwaco mener på bakgrunn av dette at åndsverklovens rammer for tekst- og datautvinning må gjøres så tydelige og restriktive som mulig.
Videre viser Norwaco til at for å kunne ivareta og forsvare rettighetshavernes interesser, er de avhengige av åpenhet, noe som også understrekes i utkastet til EUs omforente KI-forordning. De oppfordrer departementet til å være fremoverlente på dette punktet og allerede nå stille krav om åpenhet og dokumentasjon til aktører som forestår eksemplarfremstilling for tekst- og datautvinningsformål.
Norsk Redaktørforening viser til hvordan den teknologiske utviklingen påvirker mediebransjen, og at nye, avanserte og brukervennlige modeller for generativ kunstig intelligens innebærer både muligheter og utfordringer.
Norsk Redaktørforening uttaler:
«For å kunne utnytte de mulighetene som teknologien gir, samtidig som den samme teknologien ikke blir brukt til å undergrave mediene som demokratiets infrastruktur, så forutsetter det en fornuftig og balansert regulering. Det igjen forutsetter at det legges til rette for utvikling av for eksempel norske språkmodeller innen generativ AI, men uten at det går på bekostning av rettighetene til dem som produserer og publiserer det innholdet som trening av slike modeller er avhengige av.»
Blant andre Grafill, GramArt, Kunstnernettverket, NOPA, Norges Fotografforbund, Norsk audiovisuell oversetterforening (NAViO), Norsk Komponistforening, Norsk Oversetterforening, Norsk Skuespillerforbund og Norske Barne- og Ungdomsbokforfattere (NBU) mener at gjennomføringen av bestemmelsene om tekst- og datautvinning bør utsettes, i påvente av en grundig konsekvensutredning og av rettslige avklaringer på EU-nivå.
Gramo mener det er fornuftig med en minimumsimplementering av tekst- og datautvinningsbestemmelsene i direktivet, siden EU jobber med lovregulering av kunstig intelligens. IFPI Norge ber departementet vurdere om det finnes forpliktelser i KI-forordningen som kan gjennomføres i sammenheng med tekst- og datautvinningsunntakene for å sørge for at rettighetshaverne i størst mulig grad skal være i stand til å sikre sine rettigheter i forbindelse med avgrensningene.
Motion Picture Assosiation (MPA), NJ og Norsk Redaktørforening, Norsk Skuespillerforbund, Produsentforeningen NORA, Rettighetsalliansen og Virke Produsentforeningen støtter en snever og direktivnær gjennomføring av bestemmelsene. Schibsted mener at på bakgrunn av den teknologiske utviklingen er det viktig at den norske lovteksten er så klar og utvetydig som mulig.
TONO og Musikkforleggerne mener fortrinnsvis at artikkel 4 ikke bør gjennomføres i norsk rett i sin nåværende form. Dersom bestemmelsen likevel skal gjennomføres, understreker disse høringsinstansene at det er avgjørende at det ikke stilles for strenge krav til rettighetshavere om hvordan reservasjonsretten skal utøves, og at de har en reell, praktisk og tilgjengelig mulighet til å reservere seg mot bruken.
Flere høringsinstanser fra rettighetshaversiden, som BONO, Creo, Forfatterforbundet, Grafill, Kopinor, Kunstnernettverket, Rettighetsalliansen, Norges Fotografforbund og Norske Billedkunstnere, er positive til at departementet anerkjenner at bruk av verk i trening av kunstig intelligens er en opphavsrettslig relevant handling (eksemplarfremstilling). Disse instansene viser til at slik bruk derfor krever at det gis samtykke, og at det betales vederlag eller kompensasjon til rettighetshaverne. Forfatterforbundet understreker at tekst- og datautvinningsbestemmelsene må ses i sammenheng med opphavers rett til rimelig vederlag.
Mange høringsinstanser er svært bekymret for hvordan utvikling og bruk av generativ kunstig intelligens vil påvirke den kreative næringen. Det pekes på at nettet «skrapes» for åndsverk som benyttes til å trene opp generative systemer som kan benyttes til å lage tekst, bilder og musikk. Det vises til at disse frembringelsene konkurrerer mot åndsverk i det kommersielle markedet.
Flere høringsinstanser fra rettighetshaversiden viser til at formålet med direktivet er å sikre rettighetshavernes posisjon, men mener at departementets forslag til gjennomføring av bestemmelsene om tekst- og datautvinning ikke gjenspeiler dette.
Blant andre BONO viser til at gjennomføring av tekst- og datautvinningsbestemmelsene lager et nytt «verdigap», fordi de store teknologiselskapene tjener store summer på tjenester som er utviklet ved utnyttelse av åndsverk, uten at rettighetshaverne mottar vederlag for utnyttelsen.
Gramo og Produsentforeningen NORA ber departementet klargjøre forholdet mellom gjeldende § 4 om midlertidig eksemplarfremstilling og ny § 50 e om tekst- og datautvinning.
Kunstnernettverket understreker at de nye bestemmelsene kun gir rett til eksemplarfremstilling i forbindelse med tekst- og datautvinningsprosesser, og ikke tilgjengeliggjøring av verk og arbeider som utnyttes i prosessen.
Den norske Forleggerforening viser til at direktivet benytter begrepet «rightholders» mens det i utkastet § 50 e tredje ledd er benyttet «opphaver», og ber om at «rettighetshaver» benyttes i lovteksten. Det samme understrekes av Kunstnernettverket, MBL, NRK, TV 2 og Virke Produsentforeningen. Kopinor legger til grunn at begrepet skal omfatte forlag og andre som har ervervet eller arvet rettigheter, slik som de fleste andre steder i åndsverkloven. Norwaco bemerker at det i forslag til § 22 om kringkasters rettigheter ikke er tatt inn en henvisning til de foreslåtte §§ 50 d til 50 f.
Datatilsynet understreker at der tekst- og datautvinning av eksemplar eller uttrekk fra verk innebærer behandling av personopplysninger, må utvinningen være i tråd med personvernregelverket.
4.6.2 Definisjon av tekst- og datautvinning
IFPI Norge og Kopinor støtter forslaget om at definisjonen av «tekst- og datautvinning» inntas i en egen bestemmelse i loven. Det vises til at dette er hensiktsmessig både av harmoniseringshensyn, men også fordi det bidrar til klargjøring av et nytt begrep som språklig sett kan romme mye, samtidig som definisjonen i direktivet tyder på at det skal forstås snevert. IFPI Norge mener at utformingen av definisjonen bør legges tettere opp til direktivets ordlyd, blant annet ved at det tas inn at den automatiserte metoden som tillates må være «analytisk». Det samme fremgår også av uttalelsene til Kopinor, Kunstnernettverket, Mediebedriftenes Landsforening (MBL), Norges Fotografforbund, Norsk Journalistlag (NJ), Norsk Redaktørforening, Norsk Skuespillerforbund, Norwaco og TV 2.
Norsk Skuespillerforbund uttaler videre at mens KI har et iboende analytisk element og formål, så er målet for generativ KI ikke det analytiske, men genereringen av nye data. Direktivets formulering om at tekst- og datautvinning omfatter «enhver analytisk metode», bør etter deres syn derfor tas inn i lovteksten i forslaget til ny § 50 d.
Norsk Skuespillerforbund mener en vid fortolkning av definisjonen i artikkel 2 nr. 2 reiser så mange prinsipielle spørsmål at det krever grundigere utredning. Det vises til at det vil få svært alvorlige konsekvenser for norske stemmeskuespillere dersom generativ KI omfattes av tekst- og datautvinningsbestemmelsene. Hvis gjennomføringen ikke utsettes, bør definisjonen av tekst- og datautvinning etter deres syn tydelig avgrenses mot generativ KI, slik at bransjen og rettighetshaverne får mulighet til å finne løsninger.
Den norske Forfatterforening viser til at definisjonen av tekst- og datautvinning er svært åpent formulert, og at det er behov for tydeligere regulering av hvilke prosesser som omfattes av unntakene.
Språkrådet mener definisjonen bør vise tydeligere at trening av maskinlæringsmodeller er omfattet. Også Forskerforbundet og Forsvarets forskningsinstitutt etterspør en omtale av sammenhengen mellom kunstig intelligens og opphavsrett og av hvorvidt utvikling av generative KI-modeller er omfattet av definisjonen av tekst- og datautvinning.
Norsk Bibliotekforening på sin side mener at forslaget til definisjon av tekst- og datautvinning er dekkende.
4.6.3 Forberedende prosesser til tekst- og datautvinning
Blant andre KS, Norsk Bibliotekforening, Dr. Liliia Oprysk og Dr. Rossana Ducato støtter at avgrensningsreglene også må gjelde forberedende prosesser for å legge til rette for tekst- og datautvinning, eksempelvis digitalisering av analogt materiale. Forsvarets forskningsinstitutt ønsker en klargjøring av om oversettelser av verk og arbeider som forberedende prosesser til tekst- og datautvinning er omfattet av eksemplarfremstillingsretten. Instituttet ser et klart behov for at dette bør omfattes.
IFPI Norge er derimot av den oppfatning at unntaket ikke omfatter forberedende prosesser for å muliggjøre utvinningen, slik som for eksempel digitalisering av analogt materiale. Også Kunstnernettverket og Norges Fotografforbund er kritiske til at departementet legger til grunn at eksemplarfremstillingsretten omfatter digitalisering av analogt materiale, og mener at en slik tolkning utvider avgrensningsbestemmelsenes rekkevidde. I lys av blant annet tretrinnstesten mener Kunstnernettverket at en slik utvidelse ikke kan forsvares.
4.6.4 Tekst- og datautvinning til forskningsformål
Den norske Forleggerforening, IFPI Norge, Kopinor, Kunstnernettverket, Mediebedriftenes Landsforening (MBL), NOPA, Norges Fotografforbund, Norsk Journalistlag (NJ), Norsk Redaktørforening, Norwaco, TONO, TV 2 og Virke Produsentforeningen mener at utkastet § 50 f om tekst- og datautvinning til forskningsformål bør begrenses til vitenskapelig forskning slik at bestemmelsen samsvarer med direktivet artikkel 3. Videre ber disse høringsinstansene om at departementet tydeliggjør at videre utnyttelse av resultatene av en tekst- og datautvinningsprosess ikke kan strekke seg utover vitenskapelige forskningsformål og forskningsinstitusjonene selv.
NRK viser til at det følger av fortalen punkt 13 at offentlige kringkastingsforetak er kulturarvinstitusjoner som er omfattet av artikkel 3, og derfor kan fremstille og oppbevare eksemplar av verk for tekst- og datautvinning for forskningsformål. Videre bemerker NRK at det er behov for en definering av hva som skal regnes som forskningsformål, og at det ikke må trekkes for snevre rammer for dette.
Dr. Liliia Oprysk og Dr. Rossana Ducato viser til at flere EU-stater har åpnet for at også tekst- og datautvinning som ledd i selvstendig forskning utenfor forskningsinstitusjonene omfattes av avgrensningen, og ønsker en tilsvarende tolkning i Norge. Universitetet i Oslo (UiO) påpeker at grensen mellom forskningsvirksomhet og undervisningsvirksomhet kan være flytende, og at modeller og systemer som utvikles som del av forskningsvirksomheten, vil gjøres tilgjengelig for studenter i tilknytning til utarbeidelse av masteroppgaver mv. UiO legger til grunn at tekst- og datautvinning til slike formål vil være omfattet av utkastet til § 50 f.
Språkrådet forstår lovforslaget slik at de relevante forskningsaktørene med denne bestemmelsen kan gjennomføre forskningsprosjekter, men ikke trene modeller som skal publiseres for allmennheten, finjusteres av andre eller brukes kommersielt.
Den norske Forleggerforening, Forfatterforbundet, Kopinor, Kunstnernettverket, NOPA og Norges Fotografforbund ønsker at det tydeliggjøres i forarbeidene at resultatet av den vitenskapelige forskningen som kan utføres med rettslig grunnlag i forslaget til ny § 50 f, ikke senere kan utnyttes av kommersielle aktører som utvikler generativ KI.
4.6.5 Lovlig tilgjengelig og lovlig tilgang
Nasjonalbiblioteket viser til at spørsmålet om hva som skal regnes for lovlig tilgang til materiale som kan benyttes til tekst- og datautvinning, er viktig:
«Kulturarvinstitusjoner som Nasjonalbiblioteket sitter på samlinger som har som formål å være grunnlag for forskning og dokumentasjon også for tredjeparter. Dagens regelverk åpner for forsknings- og dokumentasjonsarbeid på dette materialet. Nasjonalbiblioteket mener i tråd med dette at det er viktig at lovlig tilgang for forskningsformål skal gjelde mellom kulturarvs- og forskningsinstitusjoner.»
Nasjonalbiblioteket mener at det er gode argumenter for at også materiale som er delt åpent på Internett med ulovlig kilde, kan regnes som «lovlig tilgjengelig». Det vises til at direktivets ordlyd ikke avgrenser mot ulovlige kilder. Det avgjørende er etter deres syn om man har lovlig tilgang, og dette anses å omfatte materiale åpent tilgjengelig på nettet ifølge fortalen. Videre viser Nasjonalbiblioteket til at formålet med direktivbestemmelsene om tekst- og datautvinning er å fjerne rettslig usikkerhet og skape konkurransedyktige vilkår spesielt for forskning i EØS-området. Ved å utelukke materiale fra ulovlige kilder som ligger åpent på Internett, vil høstet nettmateriale ikke kunne benyttes til tekst- og datautvinning, utenom et fåtall åpenbart lovlige kilder.
Blant andre Dr. Liliia Oprysk og Dr. Rossana Ducato, Forsvarets forskningsinstitutt og Norsk Bibliotekforening viser til at det diskuteres i opphavsrettskretser i EU om lovlig tilgang til ulovlige kilder bør omfattes av forskningsunntaket. Forsvarets forskningsinstitutt ber departementet revurdere sitt syn på dette fra høringsnotatet og viser til at det er gode grunner til at hva som skal regnes som lovlig tilgang, skal forstås forskjellig etter forskningsunntaket og den generelle bestemmelsen som også omfatter tekst- og datautvinning til kommersielle formål.
Rettighetshaversiden, herunder IFPI Norge, Kunstnernettverket, Norwaco og Virke Produsentforeningen støtter departementets forståelse av at eksemplarfremstillingsretten til tekst- og datautvinningsformål ikke omfatter materiale som er ulovlig utlagt på Internett. Disse høringsinstansene mener at hvis avgrensningene også skulle ha omfattet slikt materiale, ville det innebære et uforholdsmessig inngrep i eneretten som ikke er i samsvar med tretrinnstesten.
IFPI Norge mener at bestemmelsene bør tydeliggjøre at samtykke fra rettighetshaver til bruk av materialet til tekst- og datautvinning for kommersielle formål er det som avgjør om materialet er lovlig tilgjengelig eller om noen har lovlig tilgang til det.
Kopinor (med støtte fra blant andre Mediebedriftenes Landsforening (MBL), Norsk Journalistlag (NJ) og TV 2) er ikke enige i departementets vurdering om at det ikke er holdepunkter for å tolke betegnelsene «lovlig tilgang» i artikkel 3 og «lovlig tilgjengelige verk» etter artikkel 4 forskjellig. Etter Kopinors syn innebærer betegnelsen «lovlig tilgjengelige verk» også at rettighetshavers formål og medvirkning til at verk gjøres tilgjengelig, er avgjørende for om de omfattes av den generelle tekst- og datautvinningsbestemmelsen.
Kopinor uttaler:
«Dermed omfattes ikke verk og arbeider fra ulovlige kilder, slik departementet også skriver. I tillegg mener vi at pliktavlevert materiale i Nasjonalbibliotekets samlinger ikke kan sies å være «lovlig tilgjengelige verk» til bruk etter artikkel 4. Disse er ikke gjort tilgjengelig for slik bruk med rettighetshavernes samtykke, men i stedet tvangsmessig avlevert for spesielt definerte formål. Dette vil si at opphavere ikke må reservere seg mot eventuell bruk av pliktavlevert materiale.»
Den norske Forleggerforeningen viser til at ordlyden i bestemmelsen om tekst- og datautvinning til forskningsformål er uklar, fordi det ikke fremkommer klart hvem som skal ha den lovlige tilgangen. Også Kunstnernettverket savner en grundigere vurdering av og redegjørelse for grensedragningen, herunder hvilken grad av aktsomhet som kreves ved vurderingen av om innhold som ønskes brukt til datautvinning, er gjort lovlig tilgjengelig eller ikke.
Digitaliseringsdirektoratet (Digdir) viser til at det kan være vanskelig å skille mellom lovlig og ulovlig materiale på Internett, og stiller spørsmål ved om det foreligger en undersøkelsesplikt for de som vil benytte seg av avgrensningsbestemmelsene, og om hva som i så fall er det materielle innholdet i denne plikten.
Google Norway er kritisk til departementets uttalelser i høringsnotatet om at det ikke kan se at det er holdepunkter for å hevde at ulovlig utlagt materiale er omfattet av tekst- og datautvinningsretten.
Google Norway uttaler:
«Brukere som baserer seg på unntaket for tekst- og datautvinning og som utvinner data fra innhold som er gjort offentlig tilgjengelig på internett har ingen mulighet til å vurdere om innholdet har blitt lovlig publisert i det enkelte tilfellet. En slik prosess ville ødelegge hele formålet med DSM-direktivets bestemmelser.»
Også Norsk Bibliotekforening mener det er tilnærmet umulig å sikre seg mot at materialet som en forsker høster fra Internett i den hensikt å foreta tekst- og datautvinning, ikke inneholder elementer som kan være ulovlig lagt ut. I lys av ordlyden i direktivets fortale og formålet om å fjerne rettslig uklarhet rundt tekst- og datautvinning, mener Norsk Bibliotekforening at det er overraskende at departementet mener at ulovlig utlagt materiale ikke er omfattet av de nye avgrensningsbestemmelsene.
Norsk Bibliotekforening uttaler:
«[…] rettslig usikkerhet oppstår på nytt og undergraver dermed bestemmelsene fra direktivet dersom departementets foreslåtte tolkning av bestemmelsen får bli stående. Dette må unngås.»
4.6.6 Rett til å reservere seg mot tekst- og datautvinning
Høringsinstansene fra rettighetshaversiden, blant andre Den norske Forleggerforening, Forfatterforbundet, Grafill, Kunstnernettverket, Den norske Forfatterforening, NOPA, Norges Fotografforbund, Norsk Oversetterforening, Norske Billedkunstnere (NBK) og TONO, mener at det ikke er tilstrekkelig at det etter lovforslaget gis en adgang til å reservere seg mot at verk og arbeider benyttes til tekst- og datautvinning, fordi det ikke er utviklet hensiktsmessige måter for rettighetshavere å praktisere reservasjonsretten. Flere av disse hevder at det i dag finnes få eller ingen teknologiske funksjoner eller protokoller som vil gi et effektivt vern mot datautvinning. Det vises også til at rettighetshavere ofte ikke selv har kontroll over verkets distribusjon. Dette overlates i mange tilfeller til utgivere, produsenter, oppdragsgivere og distributører.
Kunstnernettverket innvender at det vil være umulig å etterprøve om reservasjonene blir respektert. Etter Kunstnernettverkets syn forsterkes faren for at verk utnyttes uten rettslig grunnlag og uten mulighet for å håndheve det. Grafill viser også til at det i dag ikke er mulig for rettighetshavere å opprettholde kontroll over verk som er gjort tilgjengelige på Internett.
TONO påpeker at det ved rettighetsforvaltning av musikkverk ikke er mulig å innta noe slikt forbehold på en maskinlesbar måte, og ønsker en avklaring av om det er tilstrekkelig med et generelt forbehold i form av en tekst på TONOs nettsider. Også Kunstnernettverket mener det bør være tilstrekkelig at reservasjonen gjøres ved bruk av for eksempel tekstlig reservasjon, herunder ensidige erklæringer.
KS viser til at det er behov for ytterligere presiseringer knyttet til blant annet hvordan rettighetshavere kan reservere seg mot tekst- og datautvinning, som for eksempel kan gis i form av veiledninger. Den norske Forleggerforening mener det må tydeliggjøres i lovteksten hvordan rettighetshavere praktisk kan ta forbehold.
Mediebedriftenes Landsforening (MBL) uttaler at terskelen for hva som er en hensiktsmessig måte å ta forbehold mot tekst- og datautvinning på, må være lav, og ikke kreve avanserte digitale løsninger eller lignende. Samtidig må ikke reservasjonen, etter MBLs syn, etterlate rettslig tvil.
NRK på sin side bemerker at det er viktig for medienes samfunnsoppdrag at muligheten til å ta forbehold ikke hindrer mediers og journalisters bruk av fakta som fremgår av opphavsrettslig beskyttet materiale, herunder bruk av tekst- og datautvinning, i sin journalistiske virksomhet. NRK viser til at dette er sentralt for at mediene skal kunne oppfylle sin samfunnsrolle.
Forfatterforbundet mener bestemmelsen bør endres, slik at den generelle tekst- og datautvinningsbestemmelsen kun kan anvendes hvis rettighetshavere eksplisitt har gitt tillatelse til bruk av verket.
Kopinor uttaler at siden forslaget snur de alminnelige opphavsrettslige prinsipper på hodet, ved at opphaver aktivt må motsette seg bruk, kan det ikke stilles strenge krav til måten reservasjonen gjøres på, og ansvaret for at uttrykte reservasjoner tas til følge, må ligge hos brukeren. Kopinor understreker også at materiale som tidligere er publisert på Internett, ikke automatisk kan brukes til tekst- og datautvinning etter innføringen av den generelle tekst- og datautvinningsbestemmelsen. Etter Kopinors syn må dette gjelde selv om det enkelte verk ikke er merket med en maskinlesbar reservasjon. Kopinor mener at ensidige erklæringer fra for eksempel forvaltningsorganisasjoner eller andre med fullmakter, bør være tilstrekkelig.
Digitaliseringsdirektoratet (Digdir) mener at det bør klargjøres når en reservasjon skal gis for å være gyldig:
«Dersom en KI-modell trenes på lovlige, tilgjengelige data, men rettighetshaveren i ettertid anvender reservasjonsretten, vil dette skape store praktiske utfordringer. Det er én ting å kreve at dataene fjernes fra treningsdatasettet, men å reversere påvirkningen som disse dataene har hatt på modellen vil være en svært kompleks og ressurskrevende oppgave, og i mange tilfeller ikke praktisk mulig.»
Google Norway og IKT-Norge understreker viktigheten av at forbehold mot tekst- og datautvinning av materiale som er tilgjengelig på Internett, må gjøres ved hjelp av maskinlesbar metode, siden dette er den eneste praktiske, funksjonelle og skalerbare måten for å sikre at et forbehold overholdes for innhold som er tilgjengelig på Internett. Disse høringsinstansene mener at dette bør tas inn som et eksplisitt krav i lovteksten. Også Dr. Liliia Oprysk og Dr. Rossana Ducato, Norsk Bibliotekforening og Universitetet i Oslo (UiO) støtter at lovlig reservasjon må gjøres ved å bruke en maskinlesbar metode.
Dr. Liliia Oprysk og Dr. Rossana Ducato uttaler at forslaget om å endre åndsverkloven § 100, slik at bruk av tekniske beskyttelsessystemer ikke skal hindre tekst- og datautvinning til forskningsformål, bør utvides til også å gjelde for generell tekst- og datautvinning etter utkastet § 50 e.
Blant andre Den norske Forleggerforeningen, IFPI Norge, Kunstnernettverket, Norges Fotografforbund, Norwaco og Virke Produsentforeningen mener derimot at det ikke bør stilles krav til at reservasjonen må gjøres i maskinlesbar form, og at dette heller ikke er et krav som følger av direktivet.
MBL (med støtte fra TV 2) viser til at kravet i direktivet om at reservasjon skal være maskinlesbar, etter deres syn ikke innebærer at det må skje gjennom robots.txt eller lignende digitale løsninger. Også tekst på Internett vil etter deres syn være maskinlesbar, og det bør være tilstrekkelig at det tas forbehold i brukervilkår, abonnementsvilkår og lignende. NRK påpeker at bruk av robots.txt og metatagger kun er en henstilling om at materialet ikke skal skrapes fra Internett, og at det derfor ikke er et reelt hinder.
Også Schibsted mener det er behov for ytterligere klargjøring, og viser til at det er mye usikkerhet på rettighetshaversiden i Europa om hvilke grep som faktisk er tilstrekkelige for å kunne påberope seg reservasjonsretten. Schibsted bemerker at selv om crawler-roboter ikke nødvendigvis vil lese og forstå innholdet i en generell reservasjon gitt i en robots.txt-fil, så er dette likevel, i mangel av en internasjonal standard, foreløpig en hensiktsmessig og enkel måte å uttrykke reservasjonsretten på.
Språkrådet oppfordrer til at omfanget av bruken av reservasjonsretten blir evaluert etter at loven trer i kraft. Språkrådet viser til at hvis reservasjonsretten blir mye brukt, kan dette sette sterke begrensninger for tilgangen på språkdata for utviklere av norsk språkteknologi.
4.6.7 Tretrinnstesten
Nasjonalbiblioteket støtter departementets syn på tretrinnstesten og dens rolle i norsk rett.
Flere høringsinstanser, blant andre Creo, Kunstnernettverket og Norsk filmforbund, viser til at Norge har en selvstendig internasjonal forpliktelse etter blant annet Bernkonvensjonen til å vurdere unntak fra eneretten opp mot tretrinnstesten. Creo fremhever at departementet ikke har vurdert om tretrinnstesten er oppfylt eller hvordan rettighetshaverne kan kompenseres. Kunstnernettverket og Norsk filmforbund mener at departementets forslag til gjennomføring av artikkel 3 og 4 medfører brudd på Norges folkerettslige forpliktelser. Videre understreker Kunstnernettverket at departementet etter tretrinnstesten, som et minimum, er forpliktet til å tolke bestemmelsene restriktivt.
Kopinor hevder at utformingen av bestemmelsene om tekst- og datautvinning ville sett annerledes ut dersom direktivet hadde blitt vedtatt i dag. Kunstnernettverket mener det har betydning at Norge, som en av få EØS-stater, gjennomfører direktivet etter fremveksten av generativ KI. Kunstnernettverket mener en konsekvensutredning av utvikling og bruk av KI ville ha tydeliggjort at både reservasjon mot bruk og håndheving av ulovlig bruk er tilnærmet umulig å gjennomføre. TONO mener at artikkel 4 ikke bør gjennomføres i norsk rett overhodet, blant annet med henvisning til at i lys av den ekspansive fremveksten av generativ KI, kan ikke tretrinnstesten sies å være oppfylt.
I tilknytning til utkastet § 50 e understreker BONO at bestemmelsen utelukkende kan anses å være i tråd med tretrinnstesten dersom den i realiteten gjør det mulig for rettighetshaverne å reservere seg mot at deres verk brukes til opptreningen av generative KI-modeller. Synspunktet støttes av Norges Fotografforbund. Norsk Oversetterforening (NO) uttaler seg i samme retning.
Kopinor uttaler at selv om rettighetshaverne ikke har reservert seg mot tekst- og datautvinning, vil det være grenser for hva slags videre bruk som kan aksepteres.
4.6.8 Kompensasjon og vederlag
Mange av høringsinstansene, herunder Kopinor, Kunstnernettverket, Landsorganisasjonen i Norge (LO), Norges Fotografforbund, Norsk Journalistlag (NJ), Norske Barne- og Ungdomsbokforfattere (NBU) og Norske Billedkunstnere (NBK) tar til orde for at det er avgjørende at rettighetshavere sikres rett til rimelig vederlag når deres verk og arbeider benyttes til trening av generativ kunstig intelligens.
Blant andre Kunstnernettverket, Norges Fotografforbund, NJ, NBU og Norwaco mener det bør innføres kompensasjonsordninger som sikrer at rettighetshaverne får ta del i de inntektene som deres verk og prestasjoner genererer, og at det innføres nye spesifikke avtalelisensbestemmelser for utnyttelse av verk og arbeider til tekst- og datautvinning. Videre ber disse høringsinstansene departementet vurdere å ta inn en ny særskilt avtalelisensbestemmelse i åndsverkloven hvor Nasjonalbiblioteket gjennom forvaltningsorganisasjonene kan lisensiere rettigheter til korpus eller maskinlæringsmodeller de har laget med grunnlag i forskriften § 4.
4.6.9 Tekst- og datautvinning og plagiatkontroll
Handelshøyskolen BI (BI) løfter i sin høringsuttalelse problemstillingen om bruk av verk og vernede arbeider til opptrening av plagiatkontroll-verktøy, som benyttes til å avdekke plagiat i innleverte eksamener og arbeidskrav. BI ber om at departementet vurderer hvordan slik bruk av oppgaver kan reguleres i åndsverkloven, for eksempel i forbindelse med de nye tekst- og datautvinningsbestemmelsene.
Også Universitetet i Bergen (UiB) og Universitetet i Oslo (UiO) fremhever behovet for egne regler om bruk av studentoppgaver i undervisningsinstitusjonenes saksbehandling, herunder i trening av systemer for plagiatkontroll.
4.7 Departementets vurderinger
4.7.1 Generelt
Departementet opprettholder forslaget fra høringsnotatet, med noen justeringer. Det foreslås å gjennomføre definisjonen av tekst- og datautvinning i direktivet artikkel 2 nr. 2 i ny § 50 d. Artikkel 3 om tekst- og datautvinning til forskningsformål foreslås gjennomført i ny § 50 f og den generelle adgangen til tekst og datautvinning i artikkel 4 i ny § 50 e.
Den teknologiske utviklingen har vært omfattende de siste årene, og da særlig utvikling og bruk av kunstig intelligens. Gjennomføringen av direktivet må vurderes i lys av den teknologiske situasjonen på gjennomføringstidspunktet, selv om direktivet ble vedtatt av EU i 2019.
På et område med rask utvikling og grensekryssende bruk er det etter departementets vurdering særlig viktig å gjennomføre direktivforpliktelsene direktivnært, slik at den tillatte bruken av verk og arbeider er teknologinøytral og rettsenheten i EØS-området ivaretas. En direktivnær gjennomføring bidrar samtidig til at avgrensningsbestemmelsene om tekst- og datautvinning oppfyller tretrinnstesten, herunder at hensynet til rettighetshavernes rettigheter og teknologisk innovasjon balanseres på en rimelig måte.
Det er en pågående diskusjon i juridiske og teknologiske fagmiljøer både i Norge og internasjonalt om forholdet mellom utvikling og bruk av kunstig intelligens og opphavsrett. Det er særlig to relevante problemstillinger som diskuteres. Det ene er om KI-modellene skal kunne trenes opp på store tekst- og datamengder for å bli «intelligente» uten at dette innebærer brudd på opphavsretten til verkene det trenes på. Det andre er spørsmålet om hvorvidt resultater av bruken av generativ KI, som for eksempel KI-genererte tekster og bilder, har opphavsrettslig vern. Digitalmarkedsdirektivets bestemmelser om tekst- og datautvinning berører kun den første problemstillingen. Direktivet omhandler ikke rettigheter til resultatene av tekst- og datautvinningsprosesser. Selv om det er behov for klargjøring av grensen mellom menneskeskapte verk og KI-genererte frembringelser, mener departementet at det er for tidlig å konkludere på dette nå. Grensen vil måtte klargjøres gjennom blant annet rettspraksis. Departementet avgrenser derfor mot denne problemstillingen i denne proposisjonen, men følger den rettslige og teknologiske utviklingen tett og vil vurdere eventuelle endringsbehov på et senere tidspunkt.
Selv om lovgivende myndigheter og teknologimiljøene var kjent med den teknologiske utviklingen, var det først da generative KI-tjenester som ChatGPT, Dall-E og Midjourney ble allment tilgjengelig i 2022, at debatten om den opphavsrettslige relevansen startet for fullt i det offentlige ordskiftet.
Høringen viser at denne debatten fremdeles er pågående, og at mange opplever at det er både rettslige og faglige uklarheter knyttet til forholdet mellom tekst- og datautvinningsbestemmelsene og kunstig intelligens. Det stilles spørsmål ved om trening av KI er å regne som tekst- og datautvinning etter definisjonen i direktivet, om modellene kopierer og gjenbruker hele eller vernede deler av verk og arbeider, eller om de genererer tekst, lyd og bilder basert på statistiske data. Det blir blant annet diskutert om verk som er tilgjengeliggjort på Internett uten opphavers samtykke, er å regne som lovlig tilgjengelige, og om for eksempel språkmodeller som trenes opp med hjemmel i forskningsunntaket i forslaget til § 50 d, senere kan tilgjengeliggjøres og brukes av kommersielle aktører eller ikke.
I etterkant av høringen har KI-forordningen (EU) 2024/1689 blitt vedtatt i EU. Noen av spørsmålene om forholdet mellom tekst- og datautvinning og kunstig intelligens er avklart der. Forordningen er ikke gjennomført i norsk rett ennå, men Digitaliserings- og forvaltningsdepartementet arbeider med å utarbeide lovproposisjonen om en ny KI-lov.
Det fremgår av KI-forordningen artikkel 53 at leverandører av KI-modeller til allmenne formål skal utarbeide en «policy» for etterlevelse av EU-regelverk om opphavsrett og nærstående rettigheter, herunder identifisere og respektere reservasjon mot slik trening etter artikkel 4 i digitalmarkedsdirektivet. Videre skal leverandørene utarbeide og gjøre offentlig tilgjengelig en tilstrekkelig detaljert oppsummering av materiale som er benyttet til å trene KI-modellene.
Omtalen av opphavsrett i KI-forordningen innebærer at det ikke lenger er tvil om at trening av KI-modeller kan innebære tekst- og datautvinning slik det er regulert i digitalmarkedsdirektivet. I KI-forordningens fortale punkt 105 fremgår det at utgangspunktet er at enhver bruk av opphavsrettslig vernet innhold krever tillatelse, med mindre relevante unntak og avgrensninger kan gjøres gjeldende. Fortalen viser deretter til avgrensningsbestemmelsene om tekst- og datautvinning i digitalmarkedsdirektivet og reservasjonsadgangen etter i artikkel 4. Hvis rettighetshavere på en hensiktsmessig måte har forbeholdt seg retten til tekst- og datautvinning etter denne bestemmelsen, skal tilbydere av KI-modeller til allmenne formål innhente tillatelse fra rettighetshavere hvis de likevel ønsker å utføre tekst- og datautvinning av verkene.
Etter departementets vurdering kan tekst- og datautvinning være en del av prosessen med å samle inn og kopiere data for å trene KI, mens utviklingen av en KI-modell innebærer en omfattende prosess som inkluderer å bygge og justere modellen basert på de innsamlede dataene. Samtidig er tekst- og datautvinning en metode for å analysere store datamengder også for andre formål enn å trene opp kunstig intelligens.
Gjeldende § 4 om midlertidig eksemplarfremstilling og forslaget § 50 e vil etter departementets vurdering gjelde parallelt, slik at hvert tilfelle av tekst- og datautvinning må vurderes konkret opp mot vilkårene i de ulike bestemmelsene. Som det fremgår av fortalen punkt 9, finnes det tilfeller der tekst- og datautvinning innebærer at kopiene som lages, er midlertidige og nødvendige for å kunne bruke teknologien. I slike tilfeller gjelder unntaket i § 4 som innebærer at man ikke trenger tillatelse for å gjøre dette. I slike tilfeller vil ikke forslaget § 50 e berøre gjeldende § 4 om midlertidige eksemplarfremstillingshandlinger, jf. også fortalen punkt 18.
I fortalen punkt 8 vises det til at tekst- og datautvinningsteknologien er til nytte for universiteter og andre forskningsorganisasjoner, samt for kulturarvinstitusjoner som driver med forskning. Videre vises det til at slike organisasjoner og institusjoner kan oppleve rettslig usikkerhet med hensyn til i hvilken grad de kan foreta tekst- og datautvinning av innhold. Det er derfor viktig å klargjøre de rettslige rammene for bruk av verk og vernede arbeider i tekst- og datautvinningsprosesser.
Sommeren 2023 la regjeringen frem handlingsplanen Frå ord til handling om norsk fagspråk i akademia. Her er åndsverkloven og behovet for tilrettelegging for tekst- og datautvinning omtalt. Ett av tiltakene (tiltak 19) er at regjeringen vil legge til rette for bruk av bokmål, nynorsk og norske dialekter i digitale tjenester og verktøy, blant annet ved å gjennomføre digitalmarkedsdirektivet i norsk rett. Ved å utvide og klargjøre de rettslige rammene for adgangen til tekst- og datautvinning, vil mulighetene for å utvikle gode, digitale tjenester på norsk styrkes.
Samtidig må hensynet til rettighetshavernes behov for kontroll over utnyttelsen av verkene og de vernede arbeidene de har skapt, ivaretas. Et klarere regelverk og mulighet for å reservere verk og vernede arbeider mot bruk i tekst- og datautvinningsprosesser vil kunne bidra til det.
Fortalen gir veiledning i hvordan avgrensningsbestemmelsene om tekst- og datautvinning skal forstås, og hvem som er omfattet av bestemmelsene. Den nærmere tolkningen av direktivet vil i siste instans bli et spørsmål for EU-domstolen. Europakommisjonens KI-kontor (AI Office) har også fastsatt et frivillig regelsett for god praksis for leverandører av KI-modeller for allmenn bruk (The General-Purpose AI Code of Practice). Regelsettet er utarbeidet av uavhengige eksperter i en prosess med involverte interessenter, og er utformet for å hjelpe industrien med å overholde KI-forordningens forpliktelser. Regelsettet inneholder et eget kapittel om opphavsrett. Kommisjonen har videre fastsatt retningslinjer (C(2025) 5045 final), som blant annet omhandler omfanget av forpliktelsene for leverandører av KI-modeller til allmenn bruk som er fastsatt i KI-forordningen. Dette er dokumenter som gir utfyllende informasjon om hvordan KI-forordningen skal forstås og praktiseres, og gir veiledning om forholdet mellom forordningen og EUs opphavsrettsregelverk. Departementet mener derfor at den norske lovteksten bør utformes nært opp til ordlyden i direktivet.
4.7.2 Definisjon av tekst- og datautvinning
Departementet har vurdert om definisjonen av «tekst- og datautvinning» i artikkel 2 nr. 2 bør tas inn som en egen bestemmelse i loven, eller om det er tilstrekkelig at innholdet i begrepene klargjøres i merknadene til de nye bestemmelsene. Siden dette er nye begreper i åndsverkloven og innholdet skal harmoniseres innen EØS-området, mener departementet at det er hensiktsmessig å ta inn en egen definisjonsbestemmelse i loven. Dette støttes også av de høringsinstansene som har uttalt seg om dette.
Flere høringsinstanser fra rettighetshaversiden peker på at forslaget til gjennomføring av tekst- og datautvinningsbestemmelsene skjer etter fremveksten av kunstig intelligens. Kunstnernettverket uttaler i denne sammenheng at departementet utvider virkeområdet til artikkel 3 og 4 ved å la bestemmelsene også omfatte generativ KI. Departementet viser til den vedtatte KI-forordningen artikkel 53 og fortalen punkt 105, som uttrykkelig fastslår at leverandører av KI-modeller for allmenne formål må respektere rettighetshaveres rett til å reservere seg mot tekst- og datautvinning etter digitalmarkedsdirektivet, og dermed også mot trening av KI. Etter dette er det ikke tvil om at reglene om tekst- og datautvinning omfatter trening av KI. Den foreslåtte definisjonen vil heller ikke være i strid med tretrinnstesten, se punkt 4.7.4 nedenfor.
Departementet mener at definisjonen med fordel kan forenkles sammenlignet med direktivets formulering. I høringen fremholder flere aktører fra rettighetshaversiden at definisjonen bør ligge tettere opp til direktivteksten, og at begrepet «analytisk» bør inntas i tillegg til kravet om automatisert metode. Departementet er enig i at dette er hensiktsmessig og foreslår at dette fremgår av lovteksten.
Norsk Skuespillerforbund synes i høringen å mene at en tydeliggjøring av at tekst- og datautvinning omfatter «enhver analytisk metode» vil gjøre det klart at utvikling av generativ KI ikke omfattes av bestemmelsen. Dette begrunnes med at målet for generativ KI ikke er det analytiske, men genereringen av nye data. Etter departementets vurdering er det ikke formålet med det endelige produktet, for eksempel utvikling av en generativ KI-tjeneste, som avgjør om en prosess skal anses som tekst- og datautvikling. Det avgjørende er om treningen av for eksempel en språkmodell innebærer prosesser som omfattes av tekst- og datautvinningsdefinisjonen, det vil si en automatisert analytisk metode som brukes til å analysere tekst og data i digital form for å fremskaffe informasjon. Denne informasjonen omfatter, men er ikke begrenset til, mønstre, utviklingstrekk og korrelasjoner. Om en prosess omfattes av definisjonen, må vurderes konkret.
Forslaget fra høringsnotatet om å gjennomføre definisjonen av tekst- og datautvinning i ny § 50 d videreføres, med noen justeringer.
4.7.3 Nye avgrensningsbestemmelser om tekst- og datautvinning
4.7.3.1 Generelt
Etter departementets vurdering bør artikkel 3 om tekst- og datautvinning for vitenskapelig forskning og artikkel 4 som regulerer en generell adgang til tekst- og datautvinning, gjennomføres i to nye paragrafer i loven.
Direktivets bestemmelser om tekst- og datautvinningsformål gir etter departementets oppfatning kun rett til eksemplarfremstilling. Bestemmelsene gir ikke rett til tilgjengeliggjøring av de fremstilte eksemplarene for allmennheten. Etter departementets vurdering innebærer dette at dersom resultatet av en tekst- og datautvinningsprosess inneholder hele verk eller vernede elementer, som for eksempel tekstbruddstykker med verkshøyde og ikke bare statistiske data, må tilgjengeliggjøringen enten omfattes av en av lovens avgrensningsbestemmelser eller rettighetsklareres.
Direktivet spesifiserer ikke hvilket format eksemplar av verk og vernede arbeider må ha for å kunne brukes til tekst- og datautvinning. I høringsnotatet mente departementet at dette talte for at avgrensningene til tekst- og datautvinningsformål ikke bare gjelder slik eksemplarfremstilling som er et direkte resultat av en tekst- og datautvinningsprosess, men også forberedende prosesser som for eksempel digitalisering av analogt materiale. Dette støttes av blant andre Forsvarets forskningsinstitutt, KS og Norsk Bibliotekforening i høringen. Etter en ny vurdering er departementet likevel enig med blant andre IFPI Norge, Kunstnernettverket og Norges Fotografforbund, som mener en slik tolkning kan innebære en utvidelse av bestemmelsens virkeområde. Forberedende prosesser, som eksemplarfremstilling av digitalt materiale for å strukturere dem på en hensiktsmessig måte, vil være tillatt, men ikke digitalisering av analogt materiale. Digitalisering av opphavsrettslig vernet analogt materiale må ha rettslig grunnlag i andre bestemmelser i åndsverkloven.
Etter departementets vurdering bør de nye bestemmelsene om eksemplarfremstilling til tekst- og datautvinningsformål i åndsverkloven også omfatte fotografiske bilder, jf. § 23. Dette gjelder selv om vernet av slike arbeider ikke er harmonisert i EU-retten slik som de øvrige nærstående rettighetene, og derfor ikke omfattes direkte av direktivforpliktelsene. Å skille mellom fotografiske bilder og fotografiske verk som ligger åpent tilgjengelig på Internett, eller som inngår i store datasamlinger, for deretter å trekke ut bildene før tekst- og datautvinningsprosesser gjennomføres, fremstår som tilnærmet umulig og lite hensiktsmessig. Ingen av høringsinstansene har hatt innvendinger mot dette i høringen.
4.7.3.2 Hvem som kan benytte seg av tekst- og datautvinningsbestemmelsene
Etter forslaget til ny § 50 e kan alle som har tilgang til lovlig tilgjengelige verk og vernede arbeider, benytte dem til tekst- og datautvinningsformål, hvis kriteriene i paragrafen er oppfylt. Dette omfatter både private og kommersielle aktører, forskningsinstitusjoner og offentlige aktører. Forslaget til § 50 f har en snevrere brukerkrets, og gjelder kun forskningsinstitusjoner og kulturarvinstitusjoner som har lovlig tilgang til verk eller vernede arbeider.
I direktivet defineres «forskningsorganisasjon» i artikkel 2 nr. 1. I åndsverkloven benyttes «forskningsinstitusjon» blant annet i § 49 om bruk av verk i arkiv, bibliotek og museer. Departementet legger til grunn at disse betegnelsene skal forstås likt, og foreslår å videreføre bruken av «forskningsinstitusjon» i loven og forskrift. Etter departementets vurdering er det ikke nødvendig å ta inn en egen definisjon av forskningsinstitusjon i loven. Ved tvil om hvilke institusjoner som omfattes, må institusjonene og organisasjonene omfattet av direktivets definisjon legges til grunn.
I høringen uttaler blant andre Kopinor at forskningsinstitusjonenes bruk etter § 50 f bør begrenses til institusjonens egen forskning. Departementet mener dette er en for snever forståelse av virkeområdet etter direktivet. Fortalen punkt 11 viser til at forskningsorganisasjoner bør kunne bruke verk og arbeider til tekst- og datautvinning, også innenfor rammen av offentlig-privat samarbeid. Selv om avgrensningen i direktivet bare gjelder forskningsorganisasjoner og kulturarvinstitusjoner, bør det etter departementets vurdering være adgang til at private samarbeidsparter gjennomfører selve tekst- og datautvinningsprosessen, for eksempel ved bruk av egne teknologiske verktøy.
Artikkel 3 gir adgang til tekst- og datautvinning for «vitenskapelig forskning». Ifølge fortalen punkt 12 omfatter begrepet både naturvitenskapelige og humanistiske fag. Videre fremgår det at betegnelsen «forskningsorganisasjon» ikke bare omfatter universiteter, høyskoler og andre institusjoner for høyere utdanning, men også enheter som forskningsinstitutter og sykehus som utfører forskning.
Flere høringsinstanser fra rettighetshaversiden mener ordet «vitenskapelig» også bør tas inn i lovteksten. Etter departementets vurdering er det tilstrekkelig at dette klargjøres i merknadene til bestemmelsen.
Fortalen punkt 13 presiserer at betegnelsen «kulturarvinstitusjoner» omfatter offentlig tilgjengelige bibliotek og museer, uavhengig av hvilke typer verk eller andre arbeider som inngår i deres faste samlinger. Begrepet inkluderer også arkivinstitusjoner, filmarkiv og lydarkiv. Dette omfatter blant annet nasjonalbibliotek, riksarkiv, samt bibliotek og arkiv tilknyttet utdanningsinstitusjoner og forskningsorganisasjoner. Departementet deler NRKs syn om at også offentlige kringskastingsforetak bør regnes som kulturarvinstitusjoner i denne sammenheng. Det vises til at fortalen eksplisitt nevner offentlige kringkastingsforetak som eksempel på institusjoner som omfattes av betegnelsen, når det gjelder deres arkiver og offentlig tilgjengelige bibliotek.
Dersom en kulturarvinstitusjon eller en forskningsinstitusjon ønsker å tilgjengeliggjøre resultatet av en tekst- og datautvinningsprosess for allmennheten, eller dersom prosessen inngår i utviklingen av tjenester rettet mot allmennheten (for eksempel et KI-verktøy), er det departementets vurdering at dette faller utenfor avgrensningsbestemmelsen i forslaget til § 50 f. For slike formål må tekst- og datautvinningen eventuelt baseres på den generelle bestemmelsen i § 50 e, med de kravene som følger av denne, herunder rettighetshavernes adgang til å reservere seg mot eksemplarfremstilling, jf. punktene nedenfor.
4.7.3.3 Lovlig tilgjengelig og lovlig tilgang
Direktivet stiller som vilkår at den som fremstiller eksemplar for tekst- og datautvinning i forbindelse med vitenskapelig forskning etter artikkel 3, må ha lovlig tilgang til verkene eller arbeidene. Etter den generelle adgangen i artikkel 4 er det et krav om at verkene eller arbeidene er lovlig tilgjengelige. I den engelske språkversjonen av direktivet omtales vilkåret i artikkel 3 som «lawful access», mens artikkel 4 benytter formuleringen «lawfully accessible».
Hva som menes med «lovlig tilgang», er nærmere forklart i fortalen punkt 14. Dette omfatter tilgang til innhold som er åpent fordi institusjonen har en politikk om åpen tilgang til forskning (Open Access), eller fordi forsknings- eller kulturarvinstitusjonen har tilgang basert på avtale med rettighetshavere. Personer tilknyttet slike institusjoner, anses for å ha lovlig tilgang til samlingene. Det samme gjelder personene som har tilgang til materiale gjennom abonnementer tegnet av forsknings- eller kulturarvinstitusjoner. Verk og arbeider der tilgangen er gitt etter samtykke fra opphaver eller rettighetshaver, eller ved gave, kjøp av eksemplar eller abonnementstjeneste, omfattes også av bestemmelsen. Videre fremgår det av fortalen at tilgang til innhold som er fritt tilgjengelig på Internett, skal regnes som lovlig tilgang. Også tilgang som følger av avtalelisens eller en avgrensningsbestemmelse i åndsverkloven, anses som lovlig.
For tekst- og datautvinning etter den generelle bestemmelsen i forslaget § 50 e, som gjennomfører artikkel 4, er det et krav at verk eller vernede arbeider er «lovlig tilgjengelige», herunder gjort tilgjengelig for allmennheten på Internett, jf. fortalen punkt 18.
I høringen mener blant andre Kopinor at det finnes holdepunkter for å tolke betegnelsene «lovlig tilgang» og «lovlig tilgjengelige» forskjellig, slik at pliktavlevert materiale i Nasjonalbibliotekets samlinger ikke kan sies å være «lovlig tilgjengelige verk» til bruk etter den generelle tekst- og datautvinningsbestemmelsen i forslaget til § 50 e. Departementet er enig i at pliktavlevert materiale er tvangsavstått fra rettighetshaver og dermed ikke bør regnes som «lovlig tilgjengelig» etter den generelle tekst- og datautvinningsbestemmelsen. Dette materialet omfattes derimot av forslaget § 50 f om tekst- og datautvinning til forskningsformål, siden forsknings- og kulturarvinstitusjoner som Nasjonalbiblioteket og universitetsbibliotekene har «lovlig tilgang» til dette materialet. Rettighetshavere behøver dermed ikke ta stilling til om de skal reservere seg mot tekst- og datautvinning til kommersielle formål av pliktavlevert materiale i Nasjonalbibliotekets samlinger. Selv om det følger av forarbeidene til den særskilte avtalelisensen i åndsverkloven § 50 (bruk av verk i arkiv, bibliotek og museer) at avtalen ikke omfatter materiale avlevert etter pliktavleveringslova (se Ot.prp. nr. 46 (2004–2005) side 84), er det ikke knyttet tilsvarende begrensninger til den generelle avtalelisensen i § 63 andre ledd. Kollektive forvaltningsorganisasjoner som oppfyller kravene i § 63 andre og tredje ledd, kan dermed fremforhandle avtaler om vederlag for tekst- og datautvinning av pliktavlevert materiale, selv om det ikke omfattes av avgrensningen i forslaget § 50 e.
Vurderingen av om tilgangen er lovlig, eller om verk eller arbeider er lovlig tilgjengelige, må etter departementets oppfatning bero på en tilsvarende vurdering som ellers etter åndsverkloven. Slik mange av høringsinstansene på rettighetshaversiden viser til og støtter, er det departementets vurdering at verk og arbeider fra ulovlige kilder ikke omfattes. Språklig kan formuleringen i fortalen punkt 14 – om at lovlig tilgang også bør omfatte «[…] tilgang til innhold som er fritt tilgjengelig på internett» – tolkes som at det er tilstrekkelig at innholdet kan leses eller ses av alle. Ulovlig utlagt materiale kan imidlertid være fritt tilgjengelig. Samtidig kan det i tekst- og datautvinningsprosesser være vanskelig å identifisere og skille ut verk som er ulovlig lagt ut på Internett.
I høringen mener blant andre Nasjonalbiblioteket at det kan argumenteres for at materiale som er tilgjengeliggjort uten rettighetshavers samtykke, bør omfattes av forskningsbestemmelsen. Departementet er enig i at konsekvensene for rettighetshaverne vil være mindre ved bruk etter forslaget til § 50 f enn for § 50 e. Likevel kan ikke departementet se at det er konkrete holdepunkter for å hevde at ulovlig utlagt materiale er omfattet av tekst- og datautvinningsretten. For øvrig understreker departementet at det nærmere innholdet i bestemmelsen vil måtte tolkes i lys av praksis fra EU-domstolen.
Til IFPI Norges uttalelse om at materiale kun bør regnes som lovlig tilgjengelig der rettighetshaver eksplisitt har samtykket til bruk i tekst- og datautvinningsprosesser, viser departementet til at dette er avgrensningsbestemmelser som er obligatoriske å gjennomføre, og som ikke forutsetter samtykke.
4.7.3.4 Rett til å reservere seg mot tekst- og datautvinning
Den største forskjellen mellom retten til tekst- og datautvinning for forskningsformål etter forslaget til § 50 f (som gjennomfører artikkel 3) og den generelle adgangen til tekst- og datautvinning etter forslaget til § 50 e (som gjennomfører artikkel 4) er opphavers rett til å reservere seg mot at verk eller arbeider brukes i slike prosesser.
Rettighetshavere kan ikke motsette seg at verk eller arbeider brukes i tekst- og datautvinningsprosesser med henblikk på vitenskapelig forskning. Motsetningsvis kan den generelle adgangen til tekst- og datautvinning i § 50 e ikke benyttes hvis opphaver uttrykkelig har forbeholdt seg slik bruk på en hensiktsmessig måte.
Flere høringsinstanser fra rettighetshaversiden ønsker at betegnelsen «opphaver» i forslaget til § 50 e tredje ledd endres til «rettighetshaver». Departementet viser til at utkastet gjennom henvisninger til de aktuelle nærstående rettighetene i kapittel 2 også omfatter andre rettighetshavere. Departementet viderefører derfor forslaget i høringsnotatet om å benytte betegnelsen «opphaver» i de nye avgrensningsbestemmelsene.
I høringen påpeker Norwaco at § 22 om kringkastingsforetaks rettigheter ikke inneholder henvisninger til de nye bestemmelsene i §§ 50 d til 50 f. Departementet bemerker at dette beror på en inkurie. Etter departementets vurdering bør også kringkastingsforetaks rettigheter omfattes av de nye avgrensningsbestemmelsene om tekst- og datautvinning, og det foreslås derfor å ta inn en slik henvisning.
Departementet merker seg at flere høringsinstanser fra rettighetshaversiden påpeker at ved å legge ansvaret for å reservere seg mot bruk på rettighetshaverne, snus det etablerte systemet i opphavsretten – med enerett og krav om samtykke – på hodet. Departementet viser til at direktivet ikke åpner for å innføre et krav om samtykke i stedet for en reservasjonsadgang.
For materiale som ligger tilgjengelig på Internett, følger det av artikkel 4 nr. 3 og fortalen punkt 18 at forbeholdet bør gis ved å bruke en maskinlesbar metode – for eksempel ved at informasjonen fremgår av metadata, eller av vilkårene for bruk av nettstedet eller tjenesten.
Departementet deler synspunktet fra blant andre Google Norway og IKT-Norge om at reservasjon mot bruk av materiale på Internett bør skje ved maskinlesbare metoder, slik at den effektivt kan oppfattes av automatiserte systemer som benyttes til å høste slikt materiale. Departementet mener likevel at det er tilstrekkelig å lovfeste et krav om at metoden skal være hensiktsmessig. Dette gir bestemmelsen nødvendig fleksibilitet og åpner for tilpasning til teknologisk utvikling. For store deler av materialet som ligger tilgjengelig på Internett, vil reservasjon ved maskinlesbare metoder antagelig være det eneste hensiktsmessige.
Direktivet legger opp til at aktører som vil høste innhold fra nettbaserte tjenester, basert på informasjon om mulig bruk, kun skal hente ut materiale som er relevant for det formålet høstingen gjelder. Dette betyr at de som tilgjengeliggjør innhold på nett, må informere de som høster, om bruksbetingelsene, basert på maskinell kommunikasjon mellom systemer og tjenester.
Det finnes i dag ingen etablerte standarder for slik kommunikasjon, men det finnes i noen grad de facto-standarder basert på utbredt praksis. I dag er det en utvidet bruk av robots.txt (Robots Exclusion Protocol) som peker seg ut som en relevant plattform for utveksling av informasjon i denne sammenhengen. Denne filen angir typisk hvilke deler av et nettsted som kan høstes av ulike roboter.
Robots.txt utgjør ikke en teknisk sperre for tilgang. Selv om filen angir at et visst innhold ikke skal høstes, vil roboter som ikke følger instruksjonene, fortsatt kunne lese og hente ut materialet. Det vil i så fall være et brudd på de reglene som ligger til grunn for bruken av robots.txt, og dermed heller ikke være i samsvar med forslaget § 50 e. Slike brudd vil kunne avdekkes gjennom analyse av nettstedets logger. Til uttalelsen fra blant andre Kunstnernettverket om at reservasjoner ikke alltid respekteres, bemerker departementet at det i så fall vil innebære et opphavsrettsinngrep etter loven.
Andre relevante metoder for å reservere seg er ved bruk av forskjellige former for metatagger, som HTML-metatagger og http-robots-tagger. Slike metadata kan blant annet benyttes til å fortelle de som leser innhold, hvordan innholdet kan brukes.
I motsetning til robots.txt legger disse metodene opp til at innholdet kan høstes før den som høster det, har fått informasjon om eventuelle begrensninger. Med robots.txt kan roboten derimot kunne programmeres til å ikke laste ned innhold i det hele tatt. Som flere høringsinstanser påpeker, er ikke robots.txt og bruk av metatagger egnet metode for alle verkstyper. Bruksbetingelser for nettbasert materiale kan gis i form av lisenser som for eksempel Norwegian License for Open Data (NLOD), Creative Commons (CC) og Apache License (Apache). Lisensene gir normalt god informasjon om bruksbetingelser. For materiale som ikke er åpent tilgjengelig på Internett, kan det være mer hensiktsmessig å forbeholde seg rettigheter på andre måter, for eksempel ved avtaler eller ved en ensidig erklæring.
Etter departementets vurdering vil bruk av tekniske beskyttelsessystemer også være en hensiktsmessig måte å reservere seg mot tekst- og datautvinning, siden dette er en maskinlesbar måte å begrense tilgang og bruk på.
På denne bakgrunn mener departementet at det finnes flere maskinlesbare metoder som kan benyttes for å reservere seg mot tekst- og datautvinning på, selv om det ikke er fastsatt standarder eller utviklet optimale metoder for alle verkstyper.
Det skjer en stadig utvikling på dette området, og nye løsninger vil komme på markedet. På EU-nivå arbeides det også med å støtte initiativer som skal bidra til at opphavsrettsystemet fungerer bedre i en digital kontekst, og som legger grunnlaget for et rammeverk for åpne rettighetsdata for nye teknologier.
KI-kontoret i EU (AI Office) har blant annet utarbeidet retningslinjer og frivillige regelsett for god praksis, herunder The General-Purpose AI Code of Practice. Dette regelverket stiller krav til åpenhet om hvilket opphavsrettslig vernet materiale som er benyttet i treningen av KI-modeller, samt til identifisering og etterlevelse av reservasjoner mot tekst- og datautvinning.
I høringen etterspør blant andre TONO en bekreftelse på at bruksbetingelser formulert i naturlig språk – slik det gjøres i lisenser – er tilstrekkelig, ettersom KI-baserte systemer har evne til å forstå menneskelig språk. Med en slik forståelse vil et generelt forbehold publisert på en kollektiv forvaltningsorganisasjons nettside kunne anses som en hensiktsmessig metode. Departementet erfarer imidlertid at dette kun i begrenset grad er tilfelle i dag. Selv om KI-baserte systemer kan trenes opp til å forstå og tolke innhold med god ytelse, er presisjonen fortsatt så begrenset at det ikke gir tilstrekkelig trygghet og tillit. I siste instans vil det være EU-domstolen som må ta stilling til dette.
Flere høringsinstanser etterlyser en lovfesting av hvordan rettighetshavere skal kunne reservere seg på en hensiktsmessig måte, samt at det utformes retningslinjer og veiledning om dette. Departementet mener det ikke er hensiktsmessig å lovfeste konkrete metoder. Teknologien er i kontinuerlig utvikling, og hvilke metoder som er mest egnet for ulike verkstyper vil kunne endre seg over tid. Ved å gjennomføre direktivforpliktelsene på en direktivnær måte, med et krav om at reservasjonsmetoden skal være hensiktsmessig, åpnes det for konkrete vurderinger som kan tilpasses den teknologiske utviklingen.
Siden bruk av nettbasert materiale i tekst- og datautvinningsprosesser i sin natur er grensekryssende, vil det etter departementets vurdering være formålstjenlig at retningslinjer om bruk av anerkjente tekniske metoder for reservasjon utarbeides på EU-nivå.
Artikkel 53 i KI-forordningen stiller også krav til at leverandører av grunnleggende KI-modeller (General Purpose AI Models) etablerer retningslinjer om etterlevelse av unionslovgivningen om opphavsrett og nærstående rettigheter. Dette omfatter blant annet plikt til å identifisere og respektere reservasjoner mot tekst- og datautvinning som er gitt i henhold til digitalmarkedsdirektivet artikkel 4 nr. 3, herunder reservasjoner som formidles gjennom avanserte teknologiske løsninger.
Leverandører er også forpliktet til å utarbeide og offentliggjøre et tilstrekkelig detaljert sammendrag av innholdet som benyttes til trening av grunnleggende KI-modeller. Dette bidrar til å sikre åpenhet om hvilke verk og arbeider som inngår i opptreningsprosessen, og legger til rette for etterprøving av om materialet er brukt ulovlig.
Både avgrensningsbestemmelsene som tillater tekst- og datautvinning og reservasjonsadgangen, vil gjelde fra det tidspunktet endringene i åndsverkloven trer i kraft. Til innspillene fra blant andre Kopinor om materiale som allerede er lovlig tilgjengelig på Internett når endringen trer i kraft, bemerker departementet at ensidige erklæringer i naturlig språk på organisasjonenes nettsider antagelig ikke vil være en optimal måte å gi informasjon til de maskinene som benyttes til å høste materialet. For at reservasjonen skal kunne hensyntas, må den knyttes til verket eller arbeidet som skal unntas. Samtidig vil slik informasjon være et signal til de som vil gjennomføre slike prosesser. Etter departementets vurdering må det vurderes konkret om metoden er hensiktsmessig i det enkelte tilfellet, og ved en eventuell tvist vil tilgjengelige metoder og muligheten for å oppfatte informasjonen om reservasjonen være viktige momenter.
4.7.3.5 Lagring av fremstilte eksemplar og krav til egnet sikkerhetsnivå
Departementet opprettholder forslaget til § 50 e første ledd andre punktum, slik at adgangen til å lagre eksemplar etter den generelle bestemmelsen om tekst- og datautvinning er begrenset til den perioden som er nødvendig for å oppnå formålet med utvinningen.
Etter departementets vurdering bør det anses som nødvendig å lagre eksemplarene så lenge det kan være behov for å bruke dem til å verifisere resultatene av tekst- og datautvinningsprosessen. For å oppfylle direktivets krav om sletting når lagring ikke lenger er nødvendig, mener departementet at det bør lovfestes at eksemplarene ikke kan beholdes utover det som er nødvendig, og at de ikke kan benyttes til andre formål enn tekst- og datautvinning.
Departementet opprettholder videre forslaget i § 50 f andre ledd om at eksemplar som er fremstilt for forskningsformål, kan lagres med et egnet sikkerhetsnivå og kan oppbevares med henblikk på vitenskapelig forskning, herunder for kontroll eller verifisering av forskningsresultater.
Etter departementets vurdering er lagringsadgangen for eksemplar ikke helt sammenfallende ved bruk til forskningsformål og bruk etter den generelle bestemmelsen om tekst- og datautvinning. Direktivets ordlyd tilsier at adgangen til lagring etter forskningsbestemmelsen ikke er begrenset til én enkelt tekst- og datautvinningsprosess. Så lenge formålet er vitenskapelig forskning, legger departementet til grunn at eksemplarene kan benyttes i flere forskningsprosjekter. Hensynet til rettighetshaverne, og kravet om at reservasjoner mot tekst- og datautvinning skal respekteres etter den generelle bestemmelsen, tilsier imidlertid at nye prosjekter forutsetter nye tekst- og datautvinningsprosesser. Dette bidrar til at «crawlere» som høster nettbaserte dokumenter, i større grad fanger opp oppdaterte, maskinlesbare reservasjoner mot tekst- og datautvinning.
Direktivet artikkel 3 nr. 3 åpner for at rettighetshaverne kan iverksette tiltak for å ivareta sikkerheten og integriteten til nettverkene og databasene der verk og andre vernede arbeider er lagret. Departementet legger til grunn at rettighetshaverne og forsknings- og kulturarvinstitusjoner selv er nærmest til å etablere hensiktsmessige ordninger og vurdere hvilket beskyttelsesnivå som er nødvendig. Slike tiltak må imidlertid ikke gå lenger enn det som er nødvendig for å oppnå formålet.
I henhold til artikkel 3 nr. 4 skal medlemsstatene oppfordre rettighetshaverne, forskningsorganisasjoner og kulturarvinstitusjoner til å definere en felles, avtalt beste praksis for sikker lagring av eksemplarene, samt for rettighetshavernes adgang til å iverksette tiltak for å ivareta sikkerhet og integritet i databaser og nettverk. Departementet mener aktørene i sektoren selv er nærmest til å etablere en slik beste praksis. For eksempel har Norges forskningsråd og forskningsmiljøene for øvrig allerede utarbeidet retningslinjer og krav til sikker lagring av forskningsdata. Etter departementetsvurdering er det ikke behov for å lovfeste en egen regel om dette.
4.7.4 Forholdet til tretrinnstesten
Det følger av artikkel 7 nr. 2 at tretrinnstesten i opphavsrettsdirektivet artikkel 5 nr. 5 får anvendelse på avgrensningene i artikkel 3 og 4. I høringen reiser flere av høringsinstansene spørsmål ved forholdet mellom tretrinnstesten og departementets gjennomføring av artikkel 3 og 4 i direktivet.
Tretrinnstesten er en internasjonalt anerkjent ramme for nasjonal handlefrihet når det gjelder adgangen til å gjøre avgrensninger fra eneretten. Testen innebærer at avgrensninger kun er tillatt i spesielle tilfeller. I tillegg stilles det krav om at avgrensningen verken skader den normale utnyttelsen av verket, eller på urimelig måte tilsidesetter opphaverens legitime interesser. Ved å gjennomføre bestemmelsene om tekst- og datautvinning direktivnært, legger departementet til grunn at unntakenes rettslige og økonomiske konsekvenser for rettighetshaverne består tretrinnstesten.
Europakommisjonen har vurdert avgrensningene for tekst- og datautvinning slik at de er relevante i en KI-kontekst, og at de gir balanse mellom beskyttelsen av rettighetshavere og tilretteleggingen for tekst og datautvikling, også for KI-utviklere, jf. Kommisjonens uttalelse av 31. mars 2023. Departementet slutter seg til dette.
I tilknytning til forslaget til ny § 50 e hevder blant andre BONO og TONO at forslaget ikke er i tråd med tretrinnstesten og at kravene til testen kun vil være oppfylt dersom rettighetshaverne faktisk har en realistisk mulighet til å reservere seg mot bruken. Etter departementets vurdering er kravene til tretrinnstesten oppfylt for gjennomføringen av tekst- og datautvinningsbestemmelsene. Bestemmelsenes forhold til tretrinnstesten er allerede vurdert av lovgiver i EU, og de er obligatoriske å gjennomføre. Tekst- og datautvinningsprosesser er spesielle og avgrensede tilfeller og skader ikke den normale utnyttelsen av verket. Også de økonomiske konsekvensene for den enkelte rettighetshaver antas å være liten, og rettighetshaverne kan reservere seg mot bruken.
Hvordan reservasjonsadgangen skal praktiseres, er ikke uttrykkelig regulert i direktivet. Som omtalt i punkt 4.7.3.4 ovenfor, mener departementet at det eksisterer flere relevante metoder for dette, samtidig som den teknologiske utviklingen vil føre til stadig bedre metoder.
4.7.5 Kompensasjon eller vederlag for tekst- og datautvinning
I høringen ber flere høringsinstanser om at det etableres kompensasjonsordninger, og at det innføres en ny, særskilt avtalelisensbestemmelse for avtaler om bruk av verk og vernede arbeider i tekst- og datautvinningsprosesser.
Ifølge fortalen punkt 17 bør det ved nasjonal gjennomføring av bestemmelsene om tekst- og datautvinning ikke fastsettes bestemmelser om kompensasjon til rettighetshavere. Unntaket eller avgrensningen i den opphavsrettslige eneretten til fordel for enheter som utfører vitenskapelig forskning, antas, ifølge fortalen, å medføre minimal skade for rettighetshaverne.
Departementet mener at det på nåværende tidspunkt ikke bør innføres en kompensasjonsordning for bruk av verk og arbeider i tekst- og datautvinning til forskningsformål, jf. forslaget til ny § 50 f. Bestemmelsen er begrenset til bruk i vitenskapelig forskning og omfatter ikke utvikling av kommersielle tjenester. Departementet legger derfor til grunn at eventuell skade for rettighetshaverne vil være begrenset.
Dersom rettighetshavere reserverer seg mot tekst- og datautvinning etter den generelle avgrensningsbestemmelsen i forslaget til § 50 e, må bruk av verk og vernede arbeider til trening av språkmodeller og kunstig intelligente systemer baseres på samtykke. Departementet tar til etterretning at det ofte er tale om store datamengder og et betydelig antall rettighetshavere, noe som gjør det vanskelig – eller tilnærmet umulig – å inngå avtale med hver enkelt rettighetshaver. Departementet mener avtalelisens kan være en egnet mekanisme for klarering av slik bruk. Departementet ser likevel ikke behov for å innføre en ny, særskilt avtalelisensbestemmelse, da den generelle avtalelisensen i åndsverkloven § 63 andre ledd etter departementets vurdering vil kunne benyttes. Det utelukkes imidlertid ikke at behovet for en særskilt bestemmelse kan vurderes på nytt på et senere tidspunkt.
4.7.6 Tekst- og datautvinning og plagiatkontroll
I høringen peker høringsinstanser fra universitets- og høyskolesektoren på behovet for gode verktøy for å avdekke tekstlikhet og plagiat, blant annet i innleverte arbeidskrav, eksamener og masteroppgaver. Departementet har forståelse for dette behovet og anerkjenner viktigheten av å sikre akademisk integritet. Etter departementets vurdering er det likevel ikke hensiktsmessig å innta en egen avgrensningsbestemmelse i åndsverkloven om tekst- og datautvinning av innleverte oppgaver med formål å trene slike verktøy. Bruk av studentoppgaver ut over det som kan begrunnes i de foreslåtte bestemmelsene om tekst- og datautvinning, må etter departementets vurdering enten baseres på samtykke eller ha grunnlag i universitets- og høyskoleloven og de enkelte institusjonenes eksamensreglement. Se Prop. 118 L (2024–2025) punkt 2.8 for en omtale av det rettslige grunnlaget for bruk av studentarbeider i plagiatkontroll i universitets- og høyskolesektoren. Denne proposisjonen ble fremmet for Stortinget etter at endringene i åndsverkloven hadde vært på høring.