1.0 TESTENE OG TESTINGEN

Historisk arkiv

Publisert under: Regjeringen Bondevik I

Underside |

1.0 TESTENE OG TESTINGEN

1.1 Utvikling av kartleggingsmateriell

Våren 1992 ble muligheten for å utvikle kartleggingsmateriell i lesing for enkelte klassetrinn drøftet mellom Kirke-, utdannings- og forskningsdepartementet og Senter for leseforsking (jf. Solheim, 1995). Det var flere grunner til at det kunne være interessant å utvikle nytt kartleggingsmateriell i lesing. For det første viste diskusjonen av resultatene fra den store IEA-undersøkelsen i lesing at man egentlig ikke visste så mye om hvorledes leseferdigheten på de forskjellige klassetrinnene var. Det viste seg også at man manglet nyere materiell som kunne gi svar på dette spørsmålet. Departementet var også interessert i utvikling av kartleggingsmateriell i lesing som en del av et nasjonalt vurderingssystem.

Høsten 1992 ble det satt i gang et forprosjekt som konkluderte med at det var behov for utvikling av kartleggingsprøver som kunne administreres som gruppeprøver, som kunne brukes av alle lærere (ikke krav til tilleggsutdanning) og som var utformet som "screeningprøver". Med "screeningprøver" menes her prøver som kontrollerer så mange sider som mulig av leseferdigheten med tanke på å avdekke større vansker, men uten å gå i dybden slik diagnostiske prøver gjør.

Departementet fulgte opp med en nærmere presisering og begrunnelse for hvordan materiellet skulle brukes. Det skulle være nyttig i den enkelte lærers planlegging av leseopplæringen (for hele klassen og individuelt). Det skulle kunne brukes av den enkelte skolen i planlegging og organisering av spesialundervisning. Det skulle kunne være nyttig når skolen vurderte om det var behov for viderehenvisning til PP-tjenesten. Materiellet skulle også gi informasjon om leseferdigheten på landsbasis, og det skulle kunne brukes til å vurdere behovet for etterutdanning i skoleverket. Som en del av et utviklingsprosjekt ønsket departementet også at det ble gitt et etterutdanningstilbud til PP-tjenesten på landsbasis.

Fra våren 1993 til sommeren 1997 arbeidet Senter for leseforsking med et prosjekt hvor det først ble utviklet kartleggingsprøver i lesing for 1., 2. og 6. klasse (frem til sommeren 1995) og deretter kartleggingsprøver for 4. og 8 klasse. Ved Senter for leseforsking ble det etablert en arbeidsgruppe for å utføre dette arbeidet. Prosjektledelse hadde Ragnar Gees Solheim, Liv Engen var ansvarlig for utviklingen av prøvene i 1., 2., og 4. klasse og Marit Petersen Oftedal hadde ansvaret for utviklingen av prøvene på 6. og 8. klassetrinn. Etter Reform 97 vil kartleggingsprøvene i lesing egne seg for bruk i 2., 3., 5., 7., og 9. klasse. I tillegg har Senter for leseforsking i et eget prosjekt også utviklet kartleggingsprøver i lesing for første klasse i videregående skole.

Som grunnlag for utforming av prøvene valgte man en videre definisjon av lesevansker enn den som blir brukt i tradisjonelle dysleksidefinisjoner. Det faglige grunnlaget for kartleggingsprøvene er en forståelse av lesing som en sammensatt prosess som omfatter avkoding og forståelse. Gode ferdigheter på begge disse områdene er nødvendige for å kunne utvikle funksjonell lesing. Utvikling av gode leseferdigheter er også avhengig av hvor mye en leser. I tillegg til oppgaver som kartlegger avkoding og forståelse inneholder prøven derfor også spørsmål om elevenes lesevaner.

I utformingen av materiellet var det enighet om å vektlegge at det var en kartleggingsprøve som først og fremst hadde til formål å finne fram til de elevene som trengte oppfølging. Siktemålet ble derfor at prøvene ikke skulle ha som mål å fingradere ferdighetene hos de flinkeste, men først og fremst være til hjelp med å finne de 15 - 20% svakeste leserne. Denne grensen ble valgt ut fra erfaringer som viser at skillet mellom de som kan klare seg og de som begynner å få vanskeligheter på grunn av svake leseferdigheter, går omtrent her. Dette valget innebærer at man vil få en "takeffekt", dvs. relativt mange elever som klarer alt på de forskjellige delprøvene. Det var også et ønske at det ikke skulle ta for lang tid å gjennomføre prøvene. Når man aksepterer stor "takeffekt" og vektlegger differensiering av den svakeste gruppen, gir dette muligheter for å klare seg med færre ledd på de enkelte delprøvene, dvs. få en prøve som det tar kortere tid å gjennomføre.

Kartleggingsprøven i 9. klasse

Det ble gjennomført to pilotundersøkelser før standardiseringen i november 1996. Standardiseringen ble gjennomført i et utvalg bestående av klasser tilfeldig trukket ut av Statistisk sentralbyrå. Trekkingen ble foretatt på klassenivå. Utvalget besto av 1202 elever, 604 jenter og 598 gutter. Fordelingen på målform var 556 bokmål og 646 nynorsk.

Som nevnt har målet for kartleggingsprøven vært å lage en prøve i lesing som gjør det mulig å finne fram til de elevene som trenger en oppfølging fordi de ikke er kommet langt nok i sin leseutvikling. Man har valgt å sette en grense ved de 15-20 % svakeste elevene, og prøven er laget for først og fremst å kunne fange opp denne gruppen. I standardiseringen var vi derfor primært opptatt av den `kritiske grensen' for hver av delprøvene. Vi vil referere til disse resultatene under presentasjonen av resultatene i foreliggende undersøkelse.

Reliabiliteten

er beregnet ut fra korrelasjonen mellom sum av ledd med oddetall og sum av ledd med partall ("split-half"-metoden). Denne framgangsmåten for beregning av reliabilitet gir mål på testens indre konsistens.

Stor "takeffekt" og få ledd påvirker de statistiske resultatene. Erfaringsmessig er dette forhold som trekker ned reliabiliteten. Like fullt er reliabiliteten på de fleste delprøvene god. Det er vanlig å si at reliabilitet på over 0.70-80 indikerer at man har et pålitelig `måleinstrument'.

I 9. klasse er det tilsammen 6 oppgaver. Av disse ligger tre på over 0.90 i reliabilitet, to ligger mellom 0.80 og 0.90 og den siste ligger rett onder 0.80. (jf. Lærerveiledning i vedlegg).

Validiteten for en prøve skal også vurderes. Validitet sier om prøven måler det den skal måle, i dette tilfellet leseferdighet. En vanlig framgangsmåte er å sammenligne resultatene på en ny prøve med resultatene på en annen velprøvd og pålitelig prøve. Man mangler imidlertid sammenligningsgrunnlag med leseprøver som er like omfattende, og som har vært standardisert på landsbasis.

Et mer indirekte mål på validitet kan man imidlertid også få gjennom å beregne interkorrelasjonen mellom forskjellige delprøver. I en slik analyse vil man forvente at korrelasjonen mellom delprøver som påvirkes av samme prosess/strategi, skal være relativt høy (f.eks. "ordavkoding" med "hvor er ordene"). (Korrelasjonen må imidlertid ikke bli for høy. Blir den for høy, har man egentlig bare to delprøver som måler det samme.) Man sammenligner også delprøver som skal måle forskjellige sider ved leseprosessen, men som påvirkes av litt forskjellige prosesser/strategier. Forventningen her er at man finner en positiv sammenheng, men lavere enn for ledd som påvirkes av samme prosess/strategi. I tillegg har det blitt foretatt en faktoranalytisk vurdering hvor en har analysert hvorledes de forskjellige delprøvene grupperer seg. I forbindelse med de to pilotundersøkelsene har det også blitt foretatt en omfattende oppgaveanalyse. Vi vurderer resultatene av disse validitetskontrollene som tilfredsstillende (jf. Lærerveiledning i vedlegg).

1.2 Gjennomføring av kartleggingsprøven

I utgangspunktet var det et ønske om å gjennomføre kartleggingen i halvparten av skolene i Norge. Størrelsen på dette utvalget overgår i høy grad det som vi hadde trengt av statistiske grunner. Det var imidlertid også et viktig formål at flest mulig skoler og flest mulig lærere skulle få nytte av prøven i planleggingen av en undervisning for stimulering/utvikling av leseferdigheten (for hele klassen og individuelt) og i planleggingen og organiseringen av spesialundervisningen. I tillegg var hensikten at flest mulig skoler skulle få en støtte i vurderingen av behov for viderehenvisning til PP-tjenesten. Av praktiske grunner (først og fremst økonomiske) ble utvalget redusert til maksimum to klasser pr skole i halvparten av landets skoler.

Senter for leseforsking (SLF) ved Høgskolen i Stavanger (HiS) har hatt det overordnede ansvaret for undersøkelsen. Gjennomføringen har skjedd sammen med flere samarbeidspartnere. Feedback Research, Oslo, har hatt ansvaret for den praktiske delen av arbeidet, inkludert innlesing av data. Nasjonalt læremiddelsenter har i samarbeid med Forlagssentralen hatt ansvaret for utsendelse av materiellet til de enkelte skolene. Senter for leseforsking har hatt ansvaret for tolking av data og skriving av undersøkelsesrapporten.

Trekkingen av utvalget ble foretatt av Statistisk Sentralbyrå (SSB). Det ble stratifisert etter fylker og trekkingen ble foretatt på klassenivå. I det opprinnelige utvalget var det 484 skoler og ca. 17000 elever. Elevtallet er et stipulert elevtall basert på skolestatistikken for foregående skoleår. 384 skoler, dvs ca. 80% svarte positivt på forespørselen om å delta i undersøkelsen. Av disse var det 269 skoler som sendte inn resultatene fra undersøkelsen, dvs. ca. 70% av det utvalget som hadde sagt ja til å delta. Fra disse skolene kom det inn data fra 9943 elever noe som tilsvarer en svarprosent på ca. 58,5. De fleste har gjennomført hele prøven, men enkelte elever har av ulike grunner ikke besvart alle oppgavene og spørsmålene.

For å få inn data fra skolene foretok Feedback Research to purrerunder. pr. telefon. Etter første runde kom det inn noen flere resultater, men stort sett virket det som om de skolene som hadde tatt prøven og bestemt seg for å sende inn resultatene, hadde holdt seg til innsendingsfristen. Skolenes reaksjoner ved andre gangs kontakt kan imidlertid være informative for å belyse frafallet. Vel 25% hadde ingen begrunnelse for ikke å delta i undersøkelsen og vel 25% skulle undersøke nærmere, men lot ikke høre fra seg igjen. Litt over 15% oppga kapasitetsproblemer og kommunikasjonsproblemer. Ved vel 15% av skolene var det ikke mulig å komme frem til noen som var ansvarlige. Resten av svarene gikk på at de ikke hadde mottatt det utsendte materiellet eller hadde andre grunner til at resultatene ikke ville bli sendt.

Reduksjonen av det opprinnelige utvalget er så vidt stor at det er grunn til å vurdere representativiteten i det foreliggende materialet. I den sammenheng har vi sett på både forhold som eventuelt kan forklare den relativt lave deltagelsen og på forhold som eventuelt skulle tilsi at frafallet er systematisk.

Generelle forhold som kan ha påvirket svarprosenten En svarprosent på 58,5 er lav spesielt sett i lys av at svarprosenten på en like omfattende undersøkelse av leseferdighet i 2. klasse i mai 1998 var på 80,5. (Tønnessen & Solheim, 1998). Et forhold som muligens kan forklare forskjellene mellom de to klassetrinnene er forskjellige holdning til bruk av kartleggingsprøver i lesing på barnetrinnet i forhold til ungdomstrinnet. På barnetrinnet hadde kartleggingsprøvene vært tilgjengelige i 3 år, og ca 40% av skolene oppga at de hadde brukt prøvene tidligere. Også mange som ikke selv hadde brukt prøvene må antas å ha hatt kjennskap til dem, og et flertall av lærerne på barnetrinnet har derfor trolig visst hvilket arbeid dette medførte og hvilken nytte de kunne ha av prøvene. På ungdomstrinnet derimot ble prøvene standardisert i 1996, og gjennomføringen av undersøkelsen høsten 1997 var første gang de var i omfattende bruk (med unntak av pilotundersøkelsene og standardiseringen). Det betyr at prøvene var ukjente for de fleste lærerne og at de derfor heller ikke visste hvilket arbeid deltagelse ville medføre. Fordi en visste at prøven var ny for de fleste ble det i det første brevet til skolene og lærerne opplyst at etterarbeidet omtrent ville tilsvare arbeidet med en skriftlig norskprøve. Denne opplysningen har muligens ikke gitt et godt nok bilde av etterarbeidets omfang.

Lærerne har muligens heller ikke sett hvilken nytte de selv kunne ha av elevenes resultater. Dette kan skyldes at prøven var ukjent, men kanskje også at en ikke har den samme tradisjonen på ungdomstrinnet for å arbeide med lesing og leseutvikling som den en finner (tidlig) på barnetrinnet. Midt i 9. klasse er det mer tradisjon for å konsentrere arbeid med videre leseundervisning til spesialundervisning for de svært svake leserne, og de mener en gjerne å ha identifisert på dette tidspunktet. IEA undersøkelsen viste at norske elever i sammenligning med elever fra andre land kom dårligere ut i 8. klasse (nå 9. klasse) enn i 3. klasse (Tønnessen, 1996a), men dette er ikke kjent, eller glemt. Et av de områdene som er blitt diskutert i kjølvannet av IEA undersøkelsen har da også vært at leseundervisningen i norsk skole kanskje stanser for tidlig, og at arbeid med lesing burde være et tema gjennom hele skolegangen. I brevet som gikk til skolene og lærerne var det understreket at departementets beslutning om å gjennomføre undersøkelsen i en så stor gruppe for en stor del var begrunnet med ønsket om at flere elever skulle kunne få fordelen av å ha gjennomført en systematisk kartlegging av sine leseferdigheter. For å sikre den pedagogiske bruken av kartleggingsprøven fikk også alle lærere det idéheftet som er skrevet som hjelp for utarbeiding og tilrettelegging av tiltak for lesesvake elever. Det kan virke som om informasjonen om den pedagogiske nytteverdien ikke har nådd frem til alle. Uten at en har sett at det også ligger en betydelig egengevinst for lærer og elever i å ha gjennomgått denne undersøkelsen, kan kartleggingsprøven i lesing har blitt betraktet som et arbeidskrevende ekstraarbeid for å skaffe departementet noen informasjoner. En slik forståelse av hva denne undersøkelsen har vært, vil selvfølgelig ha hatt en negativ innvirkning på motivasjonen for å gjennomføre prøven i en travel førjulstid.

At arbeidsmengden og nytteverdien eventuelt ble undervurdert kan forklare hvorfor ca. 30% av de skolene som opprinnelig hadde sagt ja til deltagelse likevel ikke sendte inn noen resultater.

Noe som kan ha forsterket problemet med arbeidsmengde og tid er at gjennomføringen delvis falt sammen med skolenes arbeid med den ordinære halvårsavslutningen. Opprinnelig var gjennomføringstidspunktet satt til siste halvdel av november med innsendelse av data til Feedback Research før jul, dvs. at det skulle være mulig å gjennomføre prøven alt midt i november. P.g.a. noen uheldige omstendigheter i forbindelse med utsending av deler av materiellet ble dette prøvetidspunktet muligens forskjøvet for enkelte skoler. Kort tid etter at materiellet var utsendt fra Forlagssentralen kom det inn noen telefoner fra skoler som etterlyste lærerveiledningen. Denne ble tilsendt umiddelbart samtidig som det ble sendt et brev til samtlige skoler om at lærerveiledningen kunne mangle, og at de skolene som ikke fant veiledningen skulle ringe Feedback Research. Selv om det viste seg at mangel på lærerveiledning bare var en feil ved deler av forsendelsene, og selv om dette ble rettet opp raskt, kan dette ha medført at gjennomføringen av kartleggingsprøvene har blitt forskjøvet på en uheldig måte. At tidspunkt og arbeidsmengde har vært et problem vet en også gjennom henvendelser som kom fra skolene til Feedback Research og Senter for leseforsking. Til sammen kom det inn et 10-talls telefoner hvor innringeren beklaget seg over arbeidsmengden. En del av disse mente også at arbeid med kartleggingsprøvene burde ha blitt honorert. Et lignende antall telefoner gjaldt problemer med fristen for innsendelse av data. I disse tilfellene ble fristen forlenget til ut i januar, uten at dette alltid førte til at data ble innsendt.

Forhold som eventuelt skulle tilsi at frafallet er systematisk

En svarprosent på litt under 60 behøver ikke nødvendigvis å bety at resultatene ikke er representative. Dersom det derimot er tegn til at frafallet følger et spesielt mønster, kan dette ha innvirkning på resultatenes representativitet. For å kontrollere representativiteten har en i hvert fylke sett på antall kommuner, skoler og elever. Videre har en sett på antall skoler i hver kommune og antall elever i skolene og kommunene. Disse oversiktene er så sammenholdt med utvalget fra SSB og listen over skoler som hadde sagt ja til å delta. Med to unntak finner en representative resultater i fylkene. Tallene fra Oslo og Finnmark må imidlertid vurderes separat.

I Oslo var det i utgangspunktet 13 skoler med 26 klasser og 765 elever som hadde sagt ja til å delta. Det kom inn resultater fra 5 skoler, 7 klasser og 172 elever. Resultatene for de 172 elevene (gjennomsnittlig sumscore) skiller seg ikke spesielt ut sammenlignet med resten av landet, men spredningen er den største blant fylkene. Deltagelsen er uansett så lav at en ikke har grunnlag for å trekke noen konklusjoner om leseferdigheten i Oslo. Noen forklaring på hva som har skjedd i Oslo er det vanskelig å gi, ut over å fastslå at det må dreie seg om ganske lokale forhold. Til sammenligning kan nevnes at Akershus (som omkranser Oslo og består at svært forskjellige kommuner) er representert med 13 kommuner, 22 skoler, 36 klasser og 875 elever. Det er også blitt undersøkt om den lave svarprosenten i Oslo kan være et "storbyfenomen", uten at det er noe som tyder på at det foreligger en slik sammenheng. I vår nest største by, Bergen, foreligger det for eksempel svar fra 9 skoler 15 klasser og 365 elever. I denne sammenligningen må en også ta i betraktning at Bergen har godt under halvparten så mange innbyggere som Oslo. Heller ikke i noen av de andre større byene er det grunn til å trekke representativiteten i tvil, selv om svarprosenten varierer noe.

Resultatene fra Finnmark må også behandles med forsiktighet. Her har en resultatene fra 5 kommuner, 6 skoler og 76 elever. Spesielt elevtallet er lavt, noe som ikke behøvde være utslagsgivende fordi det også var flere meget små skoler med i utvalget (relativt lavt elevtall var derfor forventet). Resultatet målt med gjennomsnittscore skiller seg heller ikke spesielt ut blant fylkene, og spredningen er ikke påfallende. Det avgjørende er likevel at den største skolen i utvalget i Finnmark med innpå 60 elever mangler. Selv om utvalget fortsatt inneholder data også fra store skoler i Finnmark bør en derfor ikke trekke noen bastante konklusjoner om leseferdigheten i Finnmark.

I fylkene utenom Oslo og Finnmark vil en også finne noen variasjoner, men som nevnt innledningsvis i dette punktet er disse ikke av en slik art at det får konsekvenser for representativiteten. De variasjonene en finner er knyttet til kommunenivået, men utvalget er da heller ikke satt sammen for å være representativt på dette nivået.

Konklusjonen blir at med unntak av Oslo og Finnmark er frafallene og manglene å anse som tilfeldige og at utvalget av klasser og elever må betraktes som representativt både på nasjonalt nivå og på fylkesnivå. På kommunenivå kan imidlertid utvalget av klasser og elever ikke betraktes som representativt i utvalget som helhet.

Gjennomføring

Kartleggingen ble gjennomført i november-desember 1997 - ett år etter standardiseringen. Elevenes gjennomsnittsalder var tilnærmet lik i de to testomgangene. For å få like prøvebetingelser, er det utarbeidet veiledning for lærerne (jf. Vedlegg). Lærerne rettet også prøvene i henhold til veiledingen. Skjemaene ble utformet slik at resultatene kunne scannes inn (optisk lesing). (jf. vedlagte skjema). Alt materiale ble returnert i anonymisert form i henhold til Datatilsynets bestemmelser. Vi har opplysninger om kommuner og skoler og hvilke klasser elevene tilhører.

Kartleggingsprøven i lesing omfattet 6 oppgaver og 23 spørsmål til elevene om hvordan de liker forskjellige leseaktiviteter og deres vurdering egen arbeidsinnsats. I denne undersøkelsen er det stilt 31 spørsmål til elevene, 20 spørsmål til lærerne og 16 spørsmål til rektorene. De 31 spørsmålene til elevene omfatter de 23 spørsmålene som inngår i kartleggingsprøven. Alle spørsmålene ble samlet i et spørreskjema. Dette ble gjort for å lette lærernes rettearbeid. Skjemaene var nemlig ferdig kodet og klar for direkte optisk lesing når de var fylt ut av elevene. Når det gjelder leseprøvene og de 23 spørsmålene til elevene, vil vi trekke sammenlikninger med standardiseringsprøvene. Når det gjelder de øvrige spørsmålene kan vi ikke trekke noen sammenlikning med standardiseringsresultatene, men ettersom en del av disse spørsmålene ble brukt i de 8. klassene som deltok i IEA undersøkelsen i 1991, vil vi trekke noen sammenlikninger med denne.

Lagt inn 13. januar 1999 av Statens forvaltningstjeneste, ODIN-redaksjonen