Nasjonal strategi for tilgjengeliggjøring og deling av forskningsdata

Til innholdsfortegnelse

3 Grunnprinsipper

3.1 Grunnprinsipp 1: Forskningsdata skal være så åpne som mulig, så lukkede som nødvendig

Det første grunnprinsippet for tilgjengeliggjøring og deling av forskningsdata er at data skal være så åpne som mulig, og så lukkede som nødvendig. Åpenhet er ikke en enten-eller-kategori i denne sammenhengen. Det finnes grader av åpenhet langs flere dimensjoner som omhandler hvilke data som blir tilgjengeliggjort, hvem som får tilgang, når tilgang gis og på hvilke vilkår. At data skal være så lukkede som nødvendig, reflekterer legitime behov for ulike former for begrensning av tilgangen til enkelte typer data. I noen tilfeller kan lover og regelverk gjøre det nødvendig å skjerme data, eller kun gi tilgang på bestemte vilkår. I andre tilfeller kan skjerming være nødvendig for å ivareta bestemte interesser, selv om offentliggjøring eller åpen tilgang ville vært lovlig. Noen hensyn som gjør at data ikke kan gjøres åpent tilgjengelig, er blant annet:

  • Sikkerhet: dersom det vil kunne skade noens sikkerhet (inkludert for eksempel truede arter) eller nasjonale sikkerhetsinteresser
  • Personvern: dersom det bryter med gjeldende personvernregler eller kan gå ut over noens rett til privatliv og personlig integritet
  • Immaterielle rettigheter: dersom det bryter med opphavsretten til åndsverk eller andre immaterielle rettigheter
  • Forretningshemmeligheter o.l.: dersom det vil avsløre noens forretningshemmeligheter eller lignende konfidensiell informasjon

Selv om noen av hensynene over gjør seg gjeldende i et forskningsprosjekt, trenger ikke det innebære at alle forskningsdata må skjermes. Personvernhensyn kan for eksempel ivaretas dersom data kan gjøres tilgjengelig uten å kunne knyttes til enkeltpersoner, eventuelt i form av aggregerte data.

Figur 3.1 Skjematisk oversikt over sentrale beslutninger for åpen tilgang til offentlig finansierte forskningsdata og artikler

Figur 3.1. illustrerer prinsippet om at det i et forskningsprosjekt må tas ulike beslutninger om grad av åpenhet knyttet til forskningsresultatene. Et overordnet spørsmål er om resultatene skal tilgjengeliggjøres gjennom publikasjoner eller lignende, eller skjermes (i hvert fall for en viss tid), for eksempel av sikkerhetsgrunner eller kommersielle hensyn. Dersom forskningsresultatene i seg selv skal skjermes, er det ofte ikke naturlig med åpenhet om dataene heller. For forskningsresultater som skal publiseres, må det vurderes om også forskningsdataene kan gjøres tilgjengelige i en eller annen form. Dersom ingen legitime hensyn står i veien for offentliggjøring, skal forskningsdataene tilrettelegges for åpen tilgang, og ellers må det vurderes om det kan gis tilgang innenfor nærmere angitte rammer. Det må også vurderes om det kan være aktuelt å gi (økt) tilgang til resultatene på et senere tidspunkt. Denne typen beslutninger knyttet til håndtering av forskningsdata må inngå i prosjektenes datahåndteringsplaner, se 4.2.

Åpenhet innebærer ikke nødvendigvis fri tilgang for alle. I tilfeller der full åpenhet ikke er aktuelt, kan det gis tilgang på bestemte vilkår, for eksempel gjennom autentisering, autorisering eller med særskilte krav til datahåndteringen (som sikker lagring, kontroll av utdata o.l.). Ved slik tilgangsstyring er det viktig med likebehandling av alle aktører som oppfyller vilkårene for tilgang.

Behovet for å skjerme data vil ofte endre seg over tid, slik at forskningsdata kan gjøres tilgjengelige på et senere tidspunkt. Immaterielle rettigheter har for eksempel begrenset varighet, og behovet for å skjerme personopplysninger kan avta med tiden, jf. bestemte sperrefrister for når arkiver med persondata kan åpnes.21 Videre kan den teknologiske utviklingen gjøre forretningshemmeligheter irrelevante etter relativt få år. Opplysninger om produkter eller prosesser kan være utdatert eller konkurrenter kan allerede ha tilsvarende opplysninger, slik at det ikke lenger er av konkurransemessig betydning å hemmeligholde dataene.

Et annet spørsmål knyttet til åpenhet dreier seg om vilkår for hva andre kan gjøre med data som er gjort tilgjengelige. Tidsskriftsutgivere og institusjoner kan ha ulike retningslinjer knyttet til hvilke lisenser for datalagring som skal eller bør brukes, og det er viktig med et bevisst forhold til hva lisensene innebærer. Her er det i stor grad snakk om å velge mellom ulike åpne standardlisenser, som Norsk lisens for offentlige data (NLOD) eller lisenser fra Open Data Commons eller Creative Commons.

Det er ønskelig at det benyttes lisenser som åpner for videst mulig gjenbruk av forskningsdataene. En viktig begrunnelse er at den som samler inn dataene, ikke nødvendigvis er den beste til å se potensialet for hvordan de kan brukes på nye måter, for eksempel til verdiskaping. Forskere må også være bevisst hva som kan utgjøre data for andre. For én forsker er data det som ligger til grunn for en publikasjon, mens publikasjonen i seg selv utgjør data for en annen. Det er derfor viktig å legge til rette for tekst- og datautvinning.

At lisensene bør være åpne, betyr imidlertid ikke at det ikke kan stilles vilkår til hvordan dataene kan og eventuelt ikke kan brukes. De fleste aktuelle lisensene krever for eksempel at lisensgiveren blir navngitt ved videre bruk, at det blir opplyst om endringer dersom det blir dannet derivater, og at lisensgiver ikke blir fremstilt som ansvarlig for disse. Lisensene kan også tydeliggjøre at de ikke innebærer tillatelse til gjenbruk som ellers ikke er tillatt (for eksempel av personvernhensyn).

Prinsippet om åpenhet om data innebærer ikke at hver forsker selv må arkivere kopier av alle data som er brukt og stå for tilgjengeliggjøringen av disse. I forskning som hovedsakelig er basert på åpent tilgjengelige data og hvor de aktuelle bearbeidingene lett kan beskrives og gjenskapes, vil det kunne være mer relevant å tilgjengeliggjøre disse prosedyrene med referanser til de opprinnelige kildene. I noen tilfeller vil forskeren ikke ha mulighet til å arkivere data over tid, for eksempel data som man bare kan få tilgang til under vilkår med krav om sletting eller behandling i sikrede omgivelser. I slike tilfeller vil prinsippet om åpenhet dreie seg om å dele informasjonen som er nødvendig for at andre forskere kan gjenskape eller få tilgang til dataene under samme vilkår. Når datasett er generert ut fra administrative datasystemer, kan det for eksempel være snakk om å arkivere og tilgjengeliggjøre koder for å gjenskape de samme uttrekkene.

Norsk lisens for offentlige data

Norsk lisens for offentlige data (NLOD) er en lisensavtale som er anbefalt brukt ved tilgjengeliggjøring av åpne data fra det offentlige.22 Lisensen ble utarbeidet av det daværende Fornyings- og administrasjonsdepartementet i 2011 og er tilgjengelig på norsk og engelsk. NLOD er basert på prinsippene om navngivelse (krav om å oppgi kilde) og ansvarsfraskrivelse (utgiver gir ingen garantier for feil eller mangler). Fra og med januar 2017 er Creative Commons Navngivelse 4.0 (CC-BY 4.0) sidestilt med NLOD som anbefalt lisens.23

3.2 Grunnprinsipp 2: Forskningsdata bør håndteres og tilrettelegges slik at verdiene i dataene kan utnyttes best mulig

Det er ikke tilstrekkelig med åpen og sikker lagring av forskningsdata. Dataene utgjør bare en verdi i den grad de tas i bruk, og da må de holde høy kvalitet og være reelt gjenfinnbare og gjenbrukbare.

Å legge til rette for at verdiene i forskningsdata kan utnyttes handler for det første om å senke ­terskelen for å gjenbruke dem, og for det andre om å tilføre data kvaliteter som gjør at de kan komme til nytte på forskjellige bruksområder.

Et sett av prinsipper for god tilrettelegging for videre bruk av forskningsdata, er etablert i de internasjonale FAIR-prinsippene, et akronym basert på ordene findable, accessible, interoperable, og reusable.24 FAIR-prinsippene er rettet både mot å redusere tekniske og adminstrative hindre for tilgang og gjenbruk, og mot at data skal tilfredstille ulike kvalitetskrav. De legger også stor vekt på at data befinner seg i et digitalt økosystem, og at de må kunne håndteres maskinelt.

For at data skal være gjenfinnbare, bør de for eksempel være utstyrt med en entydig og bestandig identifikator, som gjør det mulig å referere og peke til dem (i praksis DOI-nummer, se nærmere omtale under punkt 4.1). De bør også være tilgjengelige i kataloger og søketjenester med beskrivende informasjon som gjør det mulig å oppdage dataene også ut fra deres kjennemerker.

For at data skal være tilgjengelige må de lagres et sted der andre kan finne dem, og det må legges til rette for at flest mulig kan få tilgang til dem. En potensiell terskel for videre bruk er dersom datatilgangen ikke er gratis. Prisen for tilgang bør derfor være lavest mulig, og helst ikke overstige grensekostnaden for brukerens tilgang. For offentlig finansierte forskningsdata er det sentrale prinsippet at det offentlige allerede har finansiert innsamlingen av data, og at disse dermed bør anses som et offentlig gode. Samtidig er det viktig at det er mulig å opprettholde tilgangen over tid, og utenom kostnadene til selve datainnsamlingen kan det også være lagt inn betydelige grunnlags­kostnader for at det skal være mulig å gi tilgang. For å være gjenbrukbare bør dataene være lagret i et format som gjør informasjonen tilgjengelig og mulig å håndtere fleksibelt. Både data og metadata bør være så rikholdige som mulig. Dette innebærer at detaljer knyttet til innsamling, avgrensninger, definisjoner og annet som er relevant for videre bruk må være beskrevet. Datasettene bør følge relevante standarder, med strukturerte vokabularer, identifikatorer og referanser med mer for at de enklere kan forstås i forskerfellesskapene, håndteres maskinelt og brukes sammen med andre datasett. I tillegg bør datasettene være utstyrt med en (standardisert) lisens som gjør det klart hva dataene kan brukes til.

3.3 Grunnprinsipp 3: Beslutninger om arkivering og tilrettelegging av forskningsdata må tas i forskerfellesskapene

Det er krevende å gjøre forskningsdata tilgjengelige og verdifulle for gjenbruk på en god måte. Å tilrettelegge dataene og systemene for tilgang fullt ut i tråd med beste praksis for prinsippene nevnt over er svært kostnadskrevende. Selv om kostnader knyttet til digital lagring og håndtering av data stadig synker, genereres det til gjengjeld stadig større datamengder som skal lagres. Det kreves også betydelige investeringer for at dataenes sikkerhet og bruksverdi kan opprettholdes over lang tid, blant annet i form av oppdatering av formater o.l.. Disse kostnadene, kombinert med det enorme og økende omfanget av forskningsdata, gjør at ikke alle data kan arkiveres og vedlikeholdes like lenge, og ikke alle data kan eller bør tilrettelegges for gjenbruk med samme innsats og kvalitetskrav.

Alle forskningsdata kan ikke behandles på samme måte. Hvor mye ressurser det gir mening å investere for å tilrettelegge for gjenbruk vil variere, og disse investeringene må ses i forhold til den potensielle verdien dataene utgjør i dag og i fremtiden. Det er ikke alle forskningsdata som kan lagres utover det konkrete prosjektet, selv om det er lovlig å gjøre det. Dette gjelder særlig noen forskningsområder der det skapes enorme mengder rådata. Av alt som lagres, er det bare noe som utstyres med identifikatorer, noe som kan offentliggjøres, og noe som kan tilrettelegges særskilt og vedlikeholdes for permanent lagring. Ikke alle data og metadata er like rikholdige, og investeringene i utvikling av standarder og detaljerte koblinger vil ikke være like store på alle områder. Noen, men ikke alle, datasett vil gjennomgå fagfellevurderinger, autoriseringer, eller lignende.

Selv om regjeringen forventer adskillig bedre tilgjengeliggjøring og større gjenbruk av forskningsdata enn i dag, så kan ikke myndighetene vurdere hvilke data det er verdt å arkivere og gjøre gjen­brukbare. Dette er spørsmål som forskere selv må ta stilling til gjennom diskusjoner i de institusjonelle, nasjonale og internasjonale forskerfelleskapene om hva som er hensiktmessig og hva som vurderes som god skikk innenfor forskjellige fagområder. På noen fagområder har dette arbeidet kommet langt, og det er stor grad av enighet og etablert praksis for hvordan forskningsdata skal håndteres, og hvilke datainfrastrukturer eller dataarkiver som bør brukes. Dette kan være infrastrukturer eller arkiver nasjonalt eller internasjonalt. På mange fagområder har vi for eksempel tilgang til internasjonale arkiver gjennom Norges medlemskap i paneuropeiske forskningsdatainfrastrukturer (som ESFRI-infrastrukturer). På andre fagområder har arbeidet kommet kortere, og fagmiljøene har først i de senere årene begynt diskusjonene om datadeling nasjonalt og internasjonalt.

Kostnadene ved å gjøre datasett reelt gjenbrukbare (og ikke bare gjenfinnbare) må veies opp mot nytten for forskerfellesskapene og samfunnet ved at dataene kan gjenbrukes. Fordi det kan være ressurskrevende for forskningsinstitusjonene å gjøre forskningsdata gjenbrukbare, vil forskernes naturlige hovedhensyn i vurderingene av hvilke data det er viktig å arkivere og kuratere være nytten for forskerfellesskapene. Mange av kjennetegnene ved data som er velegnet for gjenbruk, er ikke bare til nytte når data deles med andre, men kan også øke kvaliteten eller effektiviteten på databruken til den som har produsert dem. Samtidig kan tilrettelegging for åpen tilgang kreve merarbeid av både teknisk og administrativ art som dataprodusentene selv ikke har noen direkte glede av. Det er derfor viktig at man tar hensyn til den potensielle nytten for andre forskere i beslutningene om deling og datahåndtering. Det er også viktig at forskere som gjør data gjenbrukbare, belønnes for nytten disse dataene har for andre gjennom anerkjennelse i forskningens systemer for verdsetting. Det er viktig at data er gjenfinnbare og siterbare for at bruken av data skal kunne registreres, og at anerkjennelsen tilfaller opphavsmiljøene, se 4.1.

Data som før ble brukt bare av forskere, blir i økende grad anvendt også av andre, i næringsliv, forvaltning, undervisning og brukergrupper som man tidligere ikke så for seg ville utvikle interesse for disse dataene eller kompetanse til å ta dem i bruk. Det er liten tvil om at også forvaltningen og næringslivet vil kunne ha stor nytte av at forskningsdata gjøres tilgjengelige for gjen­bruk. Forskningsdatasett er også et læremiddel, og forskningsdatainfrastrukturene bør også legge til rette for at forskningsdata kan brukes i undervisning. Forskningsmiljøene bør ta hensyn til denne nytten også og vurdere den opp mot kostnadene ved å tilrettelegge for gjenbruk. Det er ikke rimelig å forvente at forskere vil kunne se for seg detaljene i hvordan data kan blir gjenbrukt utenfor forskersamfunnet, og de kan derfor ikke forventes å tilrettelegge spesifikt for dette. Men i all hovedsak kan man forvente at det som skal til for å gjøre data gjenbrukbare for forskning, også vil gjøre data verdifulle for andre formål.

Eksempel på forvaltningens behov for forskningsdata: Mattilsynet

Mattilsynet er et statlig, landsdekkende forvaltningsorgan som skal ivareta trygg mat og trygt drikkevann, fremme dyre- og plantehelse og miljøvennlig produksjon og etisk forsvarlig hold av fisk og dyr på tvers av flere sektorer. Mattilsynet har også et internasjonalt ansvar for å delta i utviklingen av regelverk og standarder på sitt område (EU). Mattilsynet mottar videre vitenskapelige vurderinger av nytte- og risiko og kunnskap fra Vitenskapskomiteen for mat og miljø (VKM). Mattilsynet og VKM er avhengig av vitenskapelig dokumentasjon og forskningsdata for å utføre sine oppgaver nasjonalt og internasjonalt. Jo bedre tilgang til forskningsdata disse får, jo bedre vurderinger kan de gjøre. For Mattilsynet og VKM er det derfor viktig med kompatibilitet og effektive systemer som åpner for datadeling og gjen­bruk av forskningsdata.

Det er imidlertid ikke sikkert at resultatet av forskerfellesskapenes kost-nytte-vurderinger gir det ønskede resultatet også for forvaltningen eller næringslivet. Der forvaltningen eller andre brukergrupper ser behov for at data fra forskning gjøres gjenbrukbare utover hva det kan forventes at forskningsmiljøene tar ansvar for, må det utvikles bærekraftige finansieringsmodeller som kan dekke den ekstrakostnaden det innebærer å gjøre dataene tilgjengelige og av en slik kvalitet at de kan gjenbrukes for andre formål. Dette gjøres allerede i dag på flere områder, som for eksempel i miljøforvaltningen, i havforvaltningen eller i helseregistrene. Flere miljø- og havforskningsinstitutter har et dobbelt formål og samler inn data for både forskning og forvaltning, som gjøres åpent tilgjengelige for alle. Behovet for tilsvarende ordninger også på andre områder er et viktig spørsmål som antagelig vil måtte vurderes nærmere innenfor flere sektorer fremover.

Hvilke typer data skal tilgjengeliggjøres?

I denne strategien er begrepet «forskningsdata» ment å omfatte nedtegnelser i ethvert format som brukes som grunnlag for argumentasjon, tolkninger eller beregninger i forskning. Data kan være numeriske eller tekstlige eller registreringer av lyd, bilde osv. Strategien og prinsippene om tilgjengeliggjøring og tilrettelegging av data gjelder med andre ord både kvantitative og kvalitative data, og både data fra simuleringer eller empiriske data i form av målinger eller nedtegnede observasjoner. Data kan være enkeltvise og direkte nedtegnelser («rådata»), eller bearbeidede data som kan ha gjennomgått flere ledd av transformasjoner og sammenstillinger. De kan finnes i ustrukturerte samlinger eller være tilrettelagt i databaser.

Utover de generelle grunnprinsippene gir strategien ingen detaljerte retningslinjer for avgrensningen av akkurat hvor mye eller hvilke av forskningsdataene knyttet til en gitt aktivitet som skal arkiveres eller tilgjengeliggjøres. Dette må avgjøres av forskerne og de som håndterer dataene, innenfor de retningslinjer som er satt av de relevante institusjonene, finansieringsorganene, dataarkivene eller andre.

Et sentralt minimumskriterium for hva som bør inkluderes, er det som er nødvendig for å etterprøve forskningen. Andre relevante hensyn kan være i hvilken grad datasettene lar seg gjenskape, og den potensielle nytteverdien man vurderer at disse kan ha for andre. For data fra simuleringer vil det i mange tilfeller kunne være mest hensiktsmessig å tilgjengeliggjøre selve modellen og programvaren som genererer data, mens terskelen for å arkivere data er lavere når det er snakk om unike observasjonelle data. For datasett som kun innebærer trivielle bearbeidinger av data som allerede er tilgjengeliggjort på en hensiktsmessig måte, kan det være mer relevant å referere originalkildene og forklare hvordan de er brukt, enn å arkivere bearbeidelsen. På hvilket bearbeidingsnivå det er mest relevant å tilgjengeliggjøre data, må også bero på en pragmatisk vurdering ut fra de samme hensynene. I mange tilfeller er det gunstig å inkludere så detaljerte og ubearbeidede data som mulig, selv om et høyere bearbeidingsnivå kunne vært tilstrekkelig for å etterprøve selve funnene. Det kan for eksempel gi større rom for nye bruksmåter som forskeren selv ikke hadde sett for seg. Dersom bearbeidingen ikke fjerner så mye informasjon eller det vil være svært kostbart å inkludere rådata, kan et mer bearbeidet datasett være mer relevant og hensiktsmessig. På mange områder kan det være aktuelt å avlede flere datasett, der tilgangen til de mer detaljerte dataene må kontrolleres strengt, mens et mer bearbeidet datasett kan tilgjengeliggjøres fritt.

Kvalitative data kan reise noen særegne problem­stillinger. Når data primært er ment å utgjøre grunnlaget for analytiske tolkninger fremfor maskinell behandling, kan strukturen i dataene lett bli mer idiosynkratisk og avhengig av intuitive tolkninger. At data kan være uryddige og potensielt vanskelige å forstå for andre, er imidlertid ingen god grunn for å unnlate å gjøre dem tilgjengelige. I det minste vil den tilretteleggingen av dataene som har gjort dem brukbare i det aktuelle forskningsarbeidet, gjøre dem relevante for å forstå og etterprøve dette konkrete arbeidet for fagfeller som skal vurdere kvaliteten.

For både kvantitative og kvalitative data er det sentralt at datahåndteringen fra starten av gjøres ut fra en plan som ivaretar grunnprinsippene om tilgjengeliggjøring og tilrettelegging. Det som gjør data gode for gjenbruk, gjør dem som regel også gode for bruk generelt, og forskeren selv er den eneste som er garantert å dra nytte av at dataene er strukturert og dokumentert godt fra første stund. Forskerne som har produsert dataene, kan også selv fort kjenne seg igjen i rollen som «gjenbruker» når de ser tilbake på sine egne data etter noe tid.

Fotnoter

21.

Personopplysningsloven gjelder ikke avdøde personer. Helseregisterloven og pasientjournalloven fastsetter at helseopplysninger om avdøde personer er taushetsbelagte og underlagt personvernreglene. Forskningsetiske retningslinjer fra den nasjonale forskningsetiske komité for samfunnsvitenskap og humaniora pkt. 17 omtaler behov for aktsomhet og respekt ved forskning på avdøde personer.

22.

Se Retningslinjer ved tilgjengeliggjøring av offentlige data, pkt 1. https://data.norge.no/nlod/no

23.

https://creativecommons.org/licenses/by/4.0/deed.no

24.

Wilkinson, Mark D. mfl. (2016) «The FAIR Guiding Principles for scientific data management and stewardship». Scientific Data. 3(160018). https://doi.org/10.1038/sdata.2016.18. https://www.force11.org/group/fairgroup/fairprinciples
Til forsiden