Nasjonal strategi for tilgjengeliggjøring og deling av forskningsdata

Til innholdsfortegnelse

4 Kulturendring, insentiver, kompetanse, datahåndteringsplaner, teknisk tilrettelegging og finansieringsmodeller

Til tross for en generell positiv holdning til deling av data blant mange forskere viser DAMVADs rapport om deling og arkivering av offentlig finansierte forskningsdata i Norge at det likevel er mange grunner til at deling ikke skjer. De viktigste er mangel på infrastruktur og standarder for data og metadata, manglende kompetanse og manglende kultur for tilgjengeliggjøring av egne data for gjenbruk.25 Tillit ser ut til å være et nøkkelbegrep. Datadeling forutsetter tillit til at dataene blir håndtert på riktig måte av dem man deler med, tillit til at man selv vil få anledning til å publisere resultater og høste akademiske frukter av datainnsamlingen, og kanskje viktigst, tillit til at datatilretteleggingsarbeidet vil bli anerkjent og kreditert av andre forsk­ere ved søknader om forskningsfinansiering og stillinger.

For å øke tilgjengeliggjøring og gjenbruk av forsknings­data er det behov for å understøtte den kulturendringen som er i gang. Det er behov for endringer i akademiske insentiver, økt kompetanse, datahåndteringsplaner, bedre teknisk tilrettelegging og bærekraftige finansieringsmodeller.

4.1 Kulturendring, insentiver og kompetanse

For forskere på noen fagområder vil deling og tilgjengeliggjøring av forskningsdata være noe relativt nytt og ukjent. For forskere på andre områder er datadeling en selvfølgelig del av forskningsprosessen, og arbeidet med harmonisering og standarder har kommet mye lenger. Når det gjelder arkivering av forskningsdata, var det i DAMVADs undersøkelse blant norske forskere fra 2014 så mye som 85 prosent av respondentene som ikke plasserte data i dedikerte dataarkiver etter at prosjektet var ferdig, men som lagret egne data utelukkende på personlige enheter eller på institusjonens ordinære servere. Andelen varierte lite på tvers av sektorer, forskningsfelter og forskererfaring.

Insentiver for lagring og deling av data

Sett fra forskeres synspunkt er det i en del fag fremdeles slik at det er få insentiver knyttet til å dele data, mens arbeidet med å gjøre data tilgjengelig for andre forskere kan være omfattende, og gå på bekostning av andre aktiviteter som i større grad fremmer den enkeltes vitenskapelige karriere. Det er en viss interessekonflikt mellom forskere og samfunnet på dette punktet. Mer datadeling og gjenbruk er åpenbart i samfunnets interesse, mens dagens vurderingsregimer i akademia kan trekke i motsatt retning og forskere kan tenkes å la være å gjøre data gjenbrukbare av konkurransegrunner.

Forskere bør ikke tape karrieremessig på å bruke tid på å gjøre kvalitetssikrede, verdifulle datasett tilgjengelige for andre forskningsmiljøer og øvrige aktuelle brukergrupper. Etter hvert som det blir enklere og vanligere å dele data, erfarer stadig flere forskere at god kunnskap om forskningsdata som er tilrettelagt for gjenbruk, gjør dem attraktive som samarbeidspartnere i gode, internasjonale forskningssamarbeid.

Det er forskerfellesskapene selv som må bidra til at det blir attraktivt å tilrettelegge viktige data for gjenbruk. Forskere kan blant annet velge å legge vekt på og premiere gode datasett som viktige bidrag til forskningen ved søknader om forskningsfinansiering og stillinger.

Myndighetene på sin side har ansvar for å legge til rette for at forskere skal kunne premieres for publisering av datasett. Datasettene må kunne identifiseres og siteres, og forskerne må kunne knyttes entydig til de relevante datasettene.

Norge er medlem av DataCite, en internasjonal ikke-kommersiell organisasjon som gir medlemsorganisasjonene mulighet til å utstede DOI-nummer til forskningsdata. I Norge vil medlemsskapet og utstedelsen av DOI-nummer til forskningsdata ivaretas av det nye organet for høyere utdannings- og forskningstjenester. DOI står for digital object identifier, og er en internasjonalt standardisert permanent identifikator, som blant annet gjør det enklere og mer treffsikkert å både sitere og gjenfinne forskningsdata og publikasjoner. Den som tildeler DOI, forplikter seg til langtidslagring av objektet, minimum i ti år, og til å vedlikeholde korrekt URL til presentasjonssiden og korrekte metadata til objektet.

Norge er også medlem av ORCID, en internasjonal ikke-kommersiell organisasjon som tilbyr permanente identifikatorer for forskere. ORCID gir forsk­ere større kontroll over opplysninger om hvilke publikasjoner og data de har medvirket til, og gjør det enklere å dele og gjenbruke disse opplysningene, for eksempel i CV-er eller rapporteringer til finansieringsorganer. Identifikatoren gjør det også mulig å knytte informasjonen om den enkelte publikasjon eller datasett til den riktige forskeren, slik at man både kan gå fra en enkelt forsker eller publikasjon og se datasettene som vedkommende har frembrakt eller brukt, og gå fra et datasett til å se forskere eller publikasjoner som har en forbindelse til dette.

Gjennom medlemskapene i DataCite og ORCID har myndighetene lagt til rette for at norske forsk­ere kan kobles til datasettene de publiserer, og at datasettene kan siteres på en effektiv måte. Viktige rammebetingelser for at forskere skal kunne krediteres og premieres for publisering av datasett er dermed i ferd med å komme på plass.

En del forskere og institusjoner har foreslått at det bør innføres et økonomisk insentiv i forsknings­institusjonenes finansieringsmodeller for publisering av datasett, på linje med insentivet for publisering av vitenskapelige artikler og bøker. Per dags dato har ikke myndighetene den kunnskapen og den datakvaliteten i institusjonenes rapportering som er nødvendig for å kunne vurdere et slikt insentiv. På sikt kan dette være en mulighet som kan bidra som insentiv for datadeling.

Det vil være behov for å overvåke hva slags type data som faktisk blir gjenbrukt og har verdi over tid. Oversikt over gjenbruk kan også gi et viktig bidrag til forskningsinstitusjonenes kost-nytte-vurderinger av hvilke forskningsdata det er hensiktsmessig å tilgjengeliggjøre og tilrettelegge for gjenbruk.

Sperrefrister før forskningsdata tilgjengeliggjøres

For mange forskere forutsetter datadeling at de først får anledning til å publisere resultater selv og høste akademiske frukter av datainnsamlingen. Mange er derfor opptatt av spørsmålet om sperrefrister før forskningsdata må tilgjengeliggjøres.

Generelt gjelder målsettingen om at forskningsdata skal gjøres tilgjengelig på et så tidlig tidspunkt som mulig, men med henvisning til grunnprinsipp 3: Hva som er en rimelig sperrefrist innenfor forskjellige fagområder må vurderes og besluttes i forskerfellesskapene selv. Forskningsrådet anbefaler i sin policy for tilgjengeliggjøring av forskningsdata at dataene som ligger til grunn for publikasjoner gjøres tilgjengelig så tidlig som mulig, og aldri senere enn ved publiseringstidspunktet. Andre data som kan være av interesse for annen forskning, bør gjøres tilgjengelige innen rimelig tid, og aldri senere enn tre år etter endt prosjekt. Flere av forskningsinstitusjonene i Norge planlegger, eller har allerede vedtatt, tilsvarende formuleringer i sine retningslinjer for forvaltning av forskningsdata.

Kompetansebehov

Økt kompetanse blant forskere og studenter vil på sikt effektivisere tidsbruk og kostnader knyttet til lagring, tilrettelegging av og tilgang til datasett.

Tydeligere krav til lagring og tilgjengeliggjøring av forskningsdata medfører behov for bedre kunnskap om datahåndtering på alle nivåer. Forskere bør tilbys opplæring i hvordan man klargjør forskningsdata for lagring og tilgjengeliggjøring og hvordan man gjenbruker og siterer datasett. De nye forskningsmulighetene som den digitale utviklingen muliggjør, krever nye typer kompetanse og kombinasjoner av kompetanser i fagmiljøene. Studentene må forberedes til et digitalisert og mer data-intensivt forskningslandskap, og vil spille en viktig rolle i overgangen til en sterkere og mer innarbeidet delingskultur. På master- og ph.d.-nivå kan det være hensiktsmessig å inkludere opplæring spesifikt rettet mot tilgjengeliggjøring av data og relevante krav og prinsipper for tilretteleggingen. Data er et område som er velegnet for digitale undervisningsformer og læringsressurser og for internasjonale utdanninger, og det finnes et økende tilbud av nettkurs o.l.

Ekspertgruppen for den europeiske forskningsskyen (EOSC) argumenterer for at kulturkollisjon og motsetninger mellom forskere og IKT-eksperter er en barriere det er viktig å overstige for å få utnyttet potensialet som ligger i åpen tilgang til forskningsdata.26 De peker på behovet for å utdanne flere personer som kombinerer teknisk dataekspertise med innsikt i fagområdene de jobber på, som kan fungere som en brobygger mellom de tunge disiplinforskerne og IKT-ekspertene. Slike datarøktere (core data experts) vil være involvert i planleggingen av datahåndteringen i prosjekter fra begynnelsen av, og bidra til at dataene innsamles, tilrettelegges og tilgjengeliggjøres på en måte som er hensiktsmessig for det enkelte fagfelt, for eksempel når det gjelder valg av formater, metadatastandarder, og arkiv- og publiseringssteder. Utdanningsinstitusjonene bør vurdere behovet for å opprette nye undervisningsstilbud for å utdanne slike datarøktere, som kan videreutvikle datahåndteringstjenester og veilede forskere.

I tillegg er det et stort behov for opplæring av forskere om ulike nasjonale tjenester, og det er behov for veiledning om lisenser og rettigheter, forskrifter og lovverk, ikke minst knyttet til datasikkerhet og personvern. EUs nye personvernforordning legger som nevnt et større ansvar på institusjonene som behandler personopplysninger.

Nasjonale dataarkiver og forskningsdatainfrastruk­turer må vurdere behovet for kurs og opplæring av forskere om krav, regelverk og egne tjenester knyttet til håndtering av forskningsdata. Forskere har for eksempel bruk for støtte i form av standardformuleringer de kan bruke når de skal redegjøre overfor internasjonale tidsskriftseiere eller utgivere om hva institusjonenes retningslinjer og norsk regelverk sier om anledning til å utlevere eller gi tilgang til visse typer data.

Regjeringen forventer

  • at forskningsinstitusjonene bidrar til å heve kompetansen hos ansatte og studenter gjennom opplæring i datahåndtering og gjenbruk av data
  • at utdanningsinstitusjonene vurderer nasjonalt og nordisk samarbeid med henblikk på behovet for å etablere utdanningstilbud for håndtering av forskningsdata (datarøktere o.l.)

Regjeringen vil

  • be det nye organet for høyere utdannings- og forskningstjenester om å formidle informasjon om gjeldende krav, regelverk og ressurser knyttet til håndtering av forskningsdata
  • gi det nye organet for høyere utdannings- og forskningstjenester koordineringsansvar for å vurdere hvordan nasjonale forskningsdata­arkiver best kan tilby opplæring av forskere og studenter om egne tjenester
  • be det nye organet for høyere utdannings- og forskningstjenester om å tilrettelegge for sitering av datasett og kreditering av dataarbeid gjennom utstedelse av permanente identifikatorer (DOI-nummer) og digital forsker-ID (ORCID)
  • be det nye organet for høyere utdannings- og forskningstjenester om å utarbeide statistikk for å synliggjøre etablering og gjenbruk av forskningsdata

4.2 Krav om datahåndteringsplaner

Forskningsfinansierende myndigheter er ikke i stand til å sette detaljerte krav til hvordan data skal håndteres i et prosjekt, og akkurat hvilke forskningsdata som skal tilgjengeliggjøres på hvilken måte, jf. grunnprinsipp 3. Men for å understøtte en god datakultur, der prinsippene for god tilrettelegging og tilgjengeliggjøring av data blir integrert i forskningsprosessene, er det behov for tydeligere krav om at forskere lager planer for datahåndteringen.

En datahåndteringsplan er et dokument som beskriver hvordan forskere vil håndtere data gjennom forskningsprosjektets og dataenes livsløp. Planen er først og fremt et verktøy for de aktuelle forskerne selv. Den er et hjelpemiddel for å sikre kvaliteten på data og at man etterlever de ulike reglene og forventningene som databruken faller inn under. Planen gir også eksterne aktører mulighet for innsyn i datahåndteringen. Dette er til nytte for forskningsinstitusjonene, Forskningsrådet eller andre som har ansvar for å følge opp ulike krav eller retningslinjer. Det er også nyttig for andre forskere, som kan få innsikt i ulike sider av datahåndteringen og lære av god praksis. For å være til nytte som verktøy bør datahåndteringsplanen inngå i prosjektplanleggingen fra begynnelsen av, oppdateres jevnlig og følge prosjektet til det er ferdig. Forskere som har planlagt godt gjennom hele prosjektet, står bedre rustet til å møte eventuelle krav om datainnsyn fra utgivere eller andre i forbindelse med publisering.

En datahåndteringsplan bør omfatte alle beslutninger knyttet til data som forskere ser nytte av å planlegge, enten de er faglige, administrative, tekniske, juridiske eller etiske. Noen aktuelle spørsmål er blant annet:

  • Hvilke data vil prosjektet samle inn, generere eller behandle?
  • Hvilken nytte ser man for seg at dataene vil kunne ha for andre, både forskere og andre grupper i forvaltning og næringsliv?
  • Hvilke juridiske og etiske problemstillinger er involvert? Hvilke avtaler og informasjon er det behov for i kontakten med forskningsdeltakere, dataleverandører og andre partnere for å ivareta de øvrige delene av planen?
  • Finnes det grunner til at dataene ikke kan tilgjengeliggjøres helt åpent, og hvordan kan de da gjøres så åpne som mulig innenfor de nødvendige rammene (avledede datasett med mindre skjermingsbehov, mulighet for tilgang for noen brukergrupper på bestemte vilkår, osv.)?
  • Hvordan vil datasikkerheten ivaretas?
  • Hvordan vil dataene behandles underveis i prosjektet for å gjøre dem mest mulig gjenfinnbare og gjenbrukbare (rikholdighet og kvalitet, dokumentasjon av data og tilhørende programvare, bruk av standarder eller prinsipper for identifikatorer og variabler, osv.)?
  • Hvor vil dataene arkiveres og tilgjengeliggjøres? Er det behov for å planlegge eventuell fremtidig sletting?

Gode datahåndteringsplaner vil kunne bidra til at grunnprinsippene i denne strategien blir etterlevd på en god måte. På sikt bør derfor de fleste forskere utarbeide datahåndteringsplaner som en selvfølgelig del av forskningsprosessen. Krav fra forskningsfinansierende myndigheter om at det etableres slike planer vil kunne bidra til at flere skaffer seg et gjennomtenkt forhold til datahåndteringen sin, og hvordan data kan tilrettelegges og tilgjengeliggjøres for gjenbruk.

Fra 2017 er krav om en datahåndteringsplan som innebærer åpen tilgang til forskningsdata standard i Horisont 2020.27 Datahåndteringsplanen må leveres senest seks måneder etter prosjektstart, og kravet til åpenhet følger samme grunnprinsipp som i denne strategien om «så åpent som mulig, så lukket som nødvendig». Grunner som gjør at data ikke kan være helt åpne må inkluderes i datahåndteringsplanen. Kravet gjelder de dataene som er nødvendige for å etterprøve resultatene, og de dataene man selv velger i datahåndteringsplanen utover det. Kravet om åpen tilgang og datahåndteringsplaner er standardalternativet i Horisont 2020, men man kan både før og etter kontraktsinngåelsen velge å unnta prosjektet fra disse kravene når det foreligger legitime grunner. Likeledes har Forskningsrådets policy for tilgjengeliggjøring av forskningsdata inntil høsten 2017 omtalt datahåndteringsplaner som en anbefalt fremgangsmåte uten å fremsette et krav om slike planer for prosjekter som finansieres av Forskningsrådet. Til nå har det med andre ord i stor grad vært opp til forskerne selv om de vil lage datahåndteringsplaner og gjøre datasettene sine tilgjengelige i tråd med dem.

Nå er situasjonen endret. Som det fremgår av status­beskrivelsen i kapittel 2, er flere av de store forskningsinstitusjonene i gang med å få på plass retningslinjer og praktiske løsninger for datahåndtering. Nasjonale forskningsdataarkiver er tilgjengelige og en rekke fagspesifikke infrastrukturer for lagring og tilgjengeliggjøring av data er etablert eller under etablering både i Norge og internasjonalt. Viktige rammebetingelser for å kunne kreve at forskere lager datahåndteringsplaner for prosjektene sine er dermed i ferd med å komme på plass.

Forskningsrådets rolle

I sin oppdaterte policy for tilgjengeliggjøring av forskningsdata forutsetter Norges forskningsråd at det skal være en datahåndteringsplan i prosjekter med finansiering fra Forskningsrådet dersom prosjektet genererer data. I tråd med grunnprinsipp 3 om at beslutninger om tilrettelegging og arkivering av data må tas i forskerfellesskapene skal den forskningsutførende institusjonen eller foretaket selv ha ansvar for å vurdere behovet for og kvaliteten på datahåndteringsplanen i et prosjekt som institusjonen eller foretaket er ansvarlig for. Spørsmålet om en datahåndteringsplan tas opp med Forskningsrådet først ved kontraktsinngåelse. Det er prosjektansvarlig institusjon som avgjør om det er behov for en slik plan, og det er prosjektansvarlig institusjon som i så fall skal godkjenne at planen tilfredsstiller institusjonens krav til datahåndteringsplaner. Forskningsrådet vil på sin side være tydelige i sine forventninger om at data skal lagres i arkiver som følger de internasjonale FAIR-prinsippene.

Denne ansvarsfordelingen innebærer at det ikke skal være noen vurdering av kvaliteten på et prosjekts datahåndteringsplan i forbindelse med fagfellevurderingen som gjøres i Forskningsrådet. Den medfører med andre ord ikke flere kriterier i Forskningsrådets søknadsvurdering.

Ansvaret for datahåndteringen og godkjenningen av datahåndteringsplaner legges til institusjonene, og det vil være opptil institusjonene selv å velge relevante arkiveringsløsninger for ulike forskningsdata. Selv om dette er hovedregelen, skal Forskningsrådet fortsatt kunne kreve at bestemte prosjekter benytter spesifikke nasjonale datainfrastrukturer for lagring av data. Begrunnelsen for dette er at det innenfor enkelte fagområder finnes gode, nasjonale eller internasjonale infrastrukturer for lagring og tilgjengeliggjøring av data som helt klart bør brukes. Et slikt krav om at et spesifikt arkiv benyttes bør signaliseres i utlysningen eller gjøres klart etter nærmere dialog med de institusjonene Forskningsrådet inngår kontrakt med.

Institusjonelle rutiner for godkjenning av datahåndteringsplaner i forbindelse med søknader om forskningsfinansiering fra Norges forskningsråd, EU eller andre kan være til god hjelp for å øke forskernes kompetanse når det gjelder datahåndtering, lagring og deling. Men det er som nevnt ikke alle forskningsprosjekter som genererer data i nevneverdig grad. For en del forskningsprosjekter kan det derfor være at egen datahåndteringsplan ikke er nødvendig eller hensiktsmessig.

Samordning av systemene for utvikling av datahåndteringsplaner

For at det skal oppleves enklest mulig for den enkelte forsker, bør det tilbys IKT-verktøy for å utarbeide datahåndteringsplaner som er i tråd med hva som kreves av forskningsfinansiører internasjonalt. Slike verktøy bør være generiske, med mulighet for å tilpasses ulike fag. I dag har norske leverandører som tilbyr arkivering av forskningsdata, ulike retningslinjer og systemer for utvikling av datahåndteringsplaner. Det er ønskelig at tjenestetilbyderne samordner seg og i samarbeid med forskningsinstitusjonene bidrar til at løsningene som utvikles er mest mulig kompatible, og følger internasjonal standard.28

Regjeringen forventer

  • at forskningsinstitusjonene utvikler prosedyrer for (i) godkjenning av datahåndteringsplaner og (ii) beslutninger om at et forskningsprosjekt eventuelt er av en slik art at egen datahåndteringsplan ikke er nødvendig eller hensiktsmessig

Regjeringen vil

  • be Norges forskningsråd gjøre godt kjent sitt krav om at en datahåndteringsplan godkjent av forskningsinstitusjonen skal foreligge ved kontraktsinngåelse, der dette er relevant
  • be Norges forskningsråd fortsette å være en pådriver nasjonalt og internasjonalt for bedre tilgjengeliggjøring og gjenbruk av forskningsdata
  • be forskningsinstitusjonene om å utvikle retningslinjer for forskningsdata som skal lagres, tilgjengeliggjøres og tilrettelegges, med angivelse av hvilke løsninger som bør benyttes for håndtering av ulike datasett
  • be det nye organet for høyere utdannings- og forskningstjenester bidra til at tjenestetilbydere av nasjonale forskningsdataarkiver samordner seg og, i samarbeid med forskningsinstitusjonene, bidrar til at løsninger som utvikles for datahåndteringsplaner er mest mulig kompatible og følger internasjonale standarder

4.3 Bedre teknisk tilrettelegging og bedre faglig samordning nasjonalt

I tillegg til den tekniske infrastrukturen som er nødvendig for å lagre og analysere data, må det tilrettelegges for at arkiveringen og tilgjengeliggjøringen av forskningsdata med identifikatorer og gode metadata ikke innebærer en for stor administrativ byrde for forskerne.

Hva som er riktig arkiveringssted for et forskningsdatasett, kan variere fra en lokal arkivløsning ved den enkelte forskningsinstitusjon til felles nasjonale eller internasjonale databaser. Utvalget av relevante steder – og spørsmål om det er behov for å bygge opp nye – vil også variere fra fagfelt til fagfelt. For noen finnes det allerede definerte internasjonale databaser der data skal deponeres, mens for andre finnes det ikke lagringssteder i dag.

Fagmiljøer på flere områder har meldt om at det er behov for bedre tekniske muligheter for lagring og tilgjengeliggjøring av forskningsdata, og behov for gode selvbetjeningsløsninger for lagring, gjenfinning og gjenbruk av datasett.29

Det er også et stort behov for gode standarder for data og metadata. Dette er av avgjørende betydning for at dataene skal være interoperative, det vil si kunne brukes i andre datasystemer og av andre personer enn dem som lagde dem. Standarder for identifikatorer er også nødvendig for å kunne koble sammen ulike datasett, ved at man kan fastholde identiteten til objektene som data beskriver, på tvers av ulike datakilder. Spesifikke metadatastandarder for de enkelte fagfeltene må være godt forankret i fagfelleskapene for å få den nødvendige oppslutningen. Dette vil i de fleste tilfeller innebære internasjonale standarder, som bør benyttes i den grad det er mulig. I tillegg må man finne standarder som fungerer på tvers av fag. Standardene påvirker også i hvilken grad løsninger kan fungere på tvers av sektorgrenser, for både forskning, forvaltning og næringsliv, se avsnitt 5.2.

Et eksempel på en infrastruktur som er beregnet å betjene både forskning og næringsliv, er Språkbanken ved Nasjonalbiblioteket. Denne ressurs­katalogen tilgjengeliggjør digitale språkressurser fra både forskning og forvaltning, som kan utgjøre viktige grunnlag for utviklingen av språkteknologiske produkter. En slik samling av relevante data i kataloger og datainfrastrukturer er nyttig for å gjøre data bedre gjenfinnbare, og kan være særlig viktig for brukergrupper som ikke deltar i de vitenskapelige kommunikasjonskanalene.

Det er ønskelig med kommunikasjonsarenaer der relevante datainfrastrukturer, ulike forskningsinstitusjoner og fagmiljøer kan samles for å samordne faglige og tekniske løsninger for å bedre mulighetene for gjenbruk av data.

Gode tekniske løsninger kombinert med god datasikkerhet er viktige tiltak både for effektivisering for forskere og for dataeiere, og ikke minst for å håndtere personvernutfordringer på en god måte.30

Regjeringen har lagt frem nasjonale mål og retningslinjer for åpen tilgang til vitenskapelige artikler, med tilhørende tiltak. Innen 2024 skal alle norske vitenskapelige artikler finansiert av offentlige midler være åpent tilgjengelige. For å bidra til at målene nås, vil regjeringen forbedre funksjonaliteten for deponering av artikler via forskningsinformasjonssystemet Cristin, kreve deponering i vitenarkiv lokalt eller nasjonalt som en forutsetning for at artiklene skal telle i den resultatbaserte finansieringen (kravet forutsetter at vitenarkiv og annen nødvendig infrastruktur for deponering er tilgjengelig for alle forskningsinstitusjonene), bidra til videreutvikling av nye og bærekraftige modeller for finansiering av åpen publisering nasjonalt og internasjonalt, utvikle indikatorer og statistikk for åpen tilgang, samt utrede hvordan et nasjonalt vitenarkiv skal realiseres. Tiltak som krever økte budsjettrammer, vil måtte vurderes i årlige budsjettprosesser.31 Punktet om et vitenarkiv er også relevant med hensyn til forskningdata. Det bør finnes en samlet oversikt med informasjon om norske forskeres artikler, bøker, forskningsrapporter, avhandlinger osv., sammen med informasjon om de tilhørende rettighetsklarerte datasettene.

Det vil også kunne være behov for en eller flere nasjonale løsninger for sikker behandling av sensitive forskningsdata. Slike bør imidlertid sees i sammenheng med andre løsninger for håndtering av sensitive data, som for eksempel Helseanalyseplattformen. (Se nærmere omtale kapittel 5)

Regjeringen forventer

  • at forskningsinstitusjoner, forvaltere av forsk­nings­datainfrastrukturer og fagmiljøer bidrar til standardisering og harmonisering som muliggjør deling og gjenbruk av data i henhold til inter­nasjonale standarder og god skikk innenfor ulike fagområder (for eksempel gjennom å etablere fagområdespesifikke nasjonale kommunikasjonsarenaer)

Regjeringen vil

  • be det nye organet for høyere utdannings- og forskningstjenester om å bidra til informasjon om nasjonale forskningsdataarkiver og tjenester, slik at tjenestene fremstår samlet og lett tilgjengelige for alle forskere og forskningsutførende institusjoner
  • be det nye organet for høyere utdannings- og forskningstjenester ta ansvar for å utrede hvordan et nasjonalt vitenarkiv skal realiseres

4.4 Bærekraftig ­finansiering og drift av nasjonale forskningsdatainfra­strukturer og forskningsdata­arkiver

Arkivene for forskningsdata må ha langsiktighet for at de skal være attraktive både for dataeierne som skal lagre data, og for arkivene som skal bygge opp tjenestene. Derfor er det nødvendig å videreutvikle bærekraftige finansieringsmodeller både for etablering og drift av forskningsdata­infrastrukturer og forskningsdataarkiver.

Det er generelt en utfordring at forskningen ofte er organisert i prosjekter med begrenset varighet, mens forskningsdataene i mange tilfeller skal forvaltes i mange år etter prosjektslutt. Når det først er bestemt at forskningsdataene skal langtidslagres og dataene er deponert i et arkiv, må dataene være tilgjengelige over tid på en forutsigbar måte. Kostnader til datahåndtering må dermed ivaretas ut over prosjektperioden, og datainfrastrukturer har behov for å ha et lengre tidsperspektiv enn de fleste andre forskningsinfrastrukturer. I noen tilfeller vil dataene som arkiveres i infrastrukturene være lange og nasjonalt viktige tidsserier eller referansedatasett for forskningen. Denne typen data skal i prinsippet være tilgjengelig til evig tid. Det normale vil likevel være at dataene har en begrenset levetid, men for å sikre gjenbruk og mulighet for etterprøving av forskningen, må brukerne – både de som deponerer og de som henter ut data – ha en forsikring om at dataene er tilgjengelige og brukbare i lang tid. Minimumsforpliktelsen ved tildeling av DOI-nummer er ti år, men ofte bør forskningsdata være tilgjengelige lenger enn det. Dette krever at det finnes et element av langsiktighet i finansieringsmodellene, et element som i mange tilfeller ikke er der i dag.

Dagens finansieringsmodeller for datainfrastrukturer kan inndeles i ulike typer. Finansieringen av en infrastruktur vil normalt være sammensatt av flere av disse kildene.

  1. Strukturell finansiering: langsiktig finansiering uten krav om direkte gjenytelser. Den vil normalt komme som støtte fra et departement eller fra Forskningsrådet
  2. Forsknings- og utviklingsprosjekt: konkrete og tidsavgrensede prosjekter og aktiviteter, der formålet normalt vil være å etablere eller videreutvikle datainfrastrukturen. Støtten kan komme direkte fra forskningsfinansiører eller via en forskningsutførende organisasjon som er ansvarlig for forsknings- og utviklingsprosjektet. Støtte fra Nasjonal ordning for forskningsinfrastruktur inngår her
  3. Engangskostnad for deponering (Data Processing Charge – DPC )
  4. Kostnad for tilgang (Data Access Charge – DAC): betaling for kostnader ved å gi tilgang til data, for eksempel uttrekk av sensitive data. Det kan også være kostnader ved verdiøkende tjenester, som for eksempel generering av metadata, kobling av data, visualisering og analyse av data
  5. Støtte fra vertsorganisasjon: direkte eller indirekte støtte fra vertsorganisasjonen for data­arkivet, i form av frie midler, personale, lokaler, datautstyr osv.
  6. Medlemskap/abonnement: betaling fra institusjoner for deponering og/eller tilgang.
  7. I medlemskapsmodellen går flere organisasjoner sammen om å dekke kostnader knyttet til deponering og/eller tilgang til data.
  8. Abonnementsmodellen skiller seg fra medlemskapsmodellen ved at kostnaden ved abonnement avregnes direkte etter bruk, mens den i medlemskapsmodellen også bestemmes av andre parametere og den vil ofte være fast over en periode
  9. Oppdrag: knyttet til deponering, tilgang og/eller verdiøkende tjenester

Det er fordeler og ulemper ved de forskjellige finansieringsmodellene. Strukturell finansiering gir stabilitet og mulighet for langsiktig planlegging. Datainfrastrukturene vil trolig kunne tiltrekke seg høyt kompetent arbeidskraft om de har stor andel strukturell finansiering, og kostnadene med å skaffe finansiering vil være lave. På den andre siden kan stor strukturell finansie­ring over tid føre til at datainfrastrukturene blir lite effektive, med få insentiver for forbedringer og innovasjon. Stor andel strukturell finansiering bør derfor følges av jevnlige evalueringer, som også kan resultere i at finansieringen endres.

Betaling for deponering av data vil fungere godt sammen med normale mekanismer for finansiering av forskning, forutsatt at slike kostnader regnes som legitime. Denne finansieringskilden er også kompatibel med praksis som er etablert i forbindelse med åpen publisering, der en del åpne tidsskrifter finansieres gjennom artikkelavgifter. En utfordring vil være å avklare hva som er en riktig kostnad, ettersom den faktiske kostnaden for arkivering og kuratering over en lang tidsperiode vil være ukjent. Videre kan datainfrastrukturer som tar betalt for arkivering tape i konkurransen med datainfrastrukturer som ikke benytter denne mekanismen. Erfaring tilsier at betaling for deponering for eksempel kan være egnet for prosjekter med store behov for lagringskapasitet, mens arkivering av data som skal tilgjengeliggjøres i størst mulig grad bør være gratis for prosjektene.

Betaling for tilgang til data er i tråd med prinsippet om at brukeren betaler for de tjenestene hun eller han ønsker. Betaling for selve dataene, kan være i strid med prinsippet om åpen tilgang til offentlig finansierte data. Det kan imidlertid tas betaling for uttrekk av data og for verdiøkende tjenester som generering av metadata, kobling av data, visualisering og analyse av data. Videre kan et offentlig dataarkiv som har krav om selvfinansiering etter gjeldende offentlighetsforskrift også ta betaling for informasjon (data).32 Vektige innvendinger kan være at brukerbetaling for tilgang til data reduserer den faktiske bruken, og at det kan være mer hensiktsmessig at det er forskningsinstitusjonene og ikke enkeltprosjekter som betaler. Brukerbetaling kan også føre til at data generert i Norge blir lagret ved internasjonale datasentre som ikke tar betaling for tilgang isteden.

Finansiering av drift gjennom medlemskap/abonnement vil gi stabil og langsiktig finansiering, og de største brukergruppene vil få eierskap til data­infrastrukturen. Brukergruppene vil føle økt lojalitet til datainfrastrukturen og vil kunne få innflytelse på styringen av datainfrastrukturen. En ulempe dersom medlemskap dekker kostnad ved tilgang til data, vil være at brukere utenfor medlemsorganisasjonene må betale for tilgang, mens brukere innenfor normalt vil ha fri tilgang. Medlemskap for å dekke kostnader til deponering kan være enklere å forsvare utad, fordi det da vil være valgfritt for de som står utenfor å benytte datainfrastrukturen.

Finansiering fra vertsorganisasjonen gir god langsiktighet og god forankring hos eieren av datainfrastrukturen. Samtidig kan datainfrastrukturer som i hovedsak baserer finansiering av drift på denne kilden, få et stort innadrettet fokus. Det er naturlig at vertsorganisasjonen søker å ivareta egne behov. Konsekvensen kan bli at det bygges opp mange institusjonsarkiver, også der brukerne ville vært tjent med felles datainfrastrukturer, og den totale kostnaden ville være lavere om institusjonene gikk sammen.

Oppdrag kan være en god tilleggsfinansiering for datainfrastrukturene. Fordi både etterspørsel etter tjenestene og prisen det er mulig å oppnå for en gitt tjeneste vil være markedsbasert, er dette en usikker inntektskilde. Statsstøtteregelverket setter dessuten grenser for hvor stor økonomisk aktivitet en datainfrastruktur kan ha.

I helt spesielle tilfeller kan det søkes om støtte til langsiktig grunnfinansiering av infrastrukturer gjennom Nasjonal satsing på forskningsinfrastruktur. Det er i dag fare for at kriteriene for å kvalifisere til langsiktig grunnfinansiering ikke i tilstrekkelig grad fanger opp utfordringer som spesifikt er knyttet til drift av nasjonale forskningsdata­infrastrukturer. Det er ikke alltid klart hvilke finansieringsmodeller som vil fungere mest effektivt for å ivareta langsiktig og bærekraftig drift i hvert enkelt tilfelle. I tillegg til særskilte finansieringsvirkemidler for etablering av infrastruktur er det derfor behov for kunnskap om hvordan ulike inntekter og kostnader knyttet til arbeidet med forskningsdata kan kombineres i effektive og bærekraftige forretningsmodeller.

Det er også utfordringer knyttet til hvordan data­infrastrukturer som skal fungere på tvers av sektorer og betjene både forskere, innbyggere, forvaltning og næringsliv best finansieres. Dette er nærmere omtalt i kapittel 5.2.

Regjeringen forventer

  • at der det er hensiktsmessig utvikles selvbetjeningsløsninger som reduserer kostnader ved drift av forskningsdatainfrastrukturer gjennom å forenkle prosesser for deponering av og tilgang til forskningsdata og metadata

Regjeringen vil

  • videreføre Norges forskningsråds ordning Nasjonal satsing på forskningsinfrastruktur
  • be Norges forskningsråd, i samarbeid med det nye organet for høyere utdannings- og forskningstjenester og med representanter fra forskningsinstitusjonene, om å utrede og gi råd om bærekraftige finansieringsmodeller for drift av datainfrastrukturer og dataarkiver

Del 2: Offentlige data som er viktige datakilder for forskning

Fotnoter

25.

DAMVAD, «Sharing and archiving of publicly funded research data: Report to the Research Council of Norway», april 2014.

26.

Realising the European Open Science Cloud – First report and recommendations of the Commission High Level Expert Group on the European Open Science Cloud. 2016

27.

«H2020 Programme: AGA – Annotated Model Grant Agreement». Europakommisjonen, 2017. Versjon 4.1 hentet fra http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/amga/h2020-amga_en.pdf. «H2020 Programme: Guidelines on FAIR Data Management in Horizon 2020». Europakommisjonen, 2016. Versjon 3.0 hentet fra http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-data-mgt_en.pdf.

28.

Jf. anbefaling i Morten Dæhlen m.fl. 2017, “Forslag til IKT-strategi for UH-sektoren, delstrategi for forskning.”

29.

Morten Dæhlen m.fl. 2017, “Delstrategi for forskning” (forslag til IKT-strategi for UH-sektoren). Selvbetjeningsløsninger vil kunne forenkle forskernes tilgang til- og deponering av data/metadata og redusere kostnadene knyttet til drift av datainfrastrukturer.

30.

Datatilsynet: Veileder om progamvareutvikling med innebygd personvern. 2017

31.

https://www.regjeringen.no/contentassets/ae7f1c4b97d34806b37dc767be1fce76/nasjonale-mal-og-retningslinjer-for-apen-tilgang-til-vitenskapelige-artikler.pdf

32.

Forskrift 17. oktober 2008 til offentleglova
Til forsiden