Kommentar fra Engelskprosjektet til rapporten ”Nasjonale prøver på prøve”

Vi har lest rapporten fra utvalgsundersøkelsen om de nasjonale prøvene og er glade for anledningen til å komme med våre kommentarer til den. Vi ser at en del endringer har blitt gjort etter siste møte med gruppen som utførte undersøkelsen. På andre punkter er våre kommentarer ikke tatt til følge, og vi tolker dette som en reell faglig uenighet mellom oss som utvikler de nasjonale prøvene i engelsk og gruppen som har utført utvalgsundersøkelsen. Våre kommentarer kan samles under fem hovedpunkter:

Sensorbaserte skriveprøver versus objektivt rettete leseprøver
Da utvalgsundersøkelsen ble gjennomført, hadde vi utviklet leseprøver for alle klassetrinn og skriveprøver for 10. trinn i engelsk. Utvalgsundersøkelsen ser kun på skriveprøven. Rapportens konklusjoner for engelskprøven ville nok ha blitt mer positiv dersom leseprøvene hadde vært i fokus, dette fordi undersøkelsen i så stor grad fokuserer på reliabiliteten. Mens det er forholdsvis lett å oppnå høye reliabilitetsestimat for objektivt skårete prøver som leseprøven, er det langt mer krevende for sensorbaserte prøver som skriveprøven. Leseprøven i engelsk er prøvd ut på 11 000 elever og oppnådde reliabilitetsestimat på godt over .90 for alle klassetrinn (Moe 2004). For skriveprøver er det urealistisk å forvente reliabilitetsestimat i nærheten av dette. Rundt .70 regnes av mange for akseptabelt for slike prøver. For å oppnå akseptable reliabilitetsestimat, må man jobbe bevisst med å utvikle kriterier for vurdering, lære opp sensorer og gi sensorene tid til å bli kjent med kriteriene og karakterskalaen (Weigle 2002, McNamara 1995). Disse prosedyrene har vi benyttet oss av, men tiden har vært knapp. Vi hadde nok foretrukket at sensorene hadde fått litt mer tid til å utvikle et tolkningsfellesskap og bygge opp vurderingserfaring, før deres ferdigheter som sensorer skulle settes på prøve.

Kravspesifikasjonene
I rapporten står det at undersøkelsen skal se på flere sider ved prøven, både hvilke metoder som ble brukt i utviklingen av prøvene, grunnleggende item-analyser, reliabilitet, validitet og sammenlikninger (2). Vi kan ikke se at disse målsetningene er møtt for engelskprøvene. Her er fokus så godt som utelukkende på reliabiliteten. Vi savner en grundigere gjennomgang av prøveresultatenes validitet, sett i forhold til de to hovedkildene til invaliditet: konstruktunderrepresentasjon og konstruktirrelevant varians (Messick 1989): Er det godt samsvar mellom oppgaver/ vurderingskriterier og det vi ønsker prøven skal måle? Er vår tilpassing av CEF-skalaene holdbar? Legger sensorene vekt på de riktige trekkene når de vurderer? Er oppgavene passelig vanskelige? Er oppgavene og vurderingskriteriene slik at man kan forvente en positiv tilbakevirkningseffekt på undervisningen? etc. Selv om reliabilitet er et viktig trekk ved prøveresultatene og en av hovedutfordringene for prøver i fri skriftlig produksjon, synes vi det er for snevert å utelukkende vurdere en prøves kvalitet i forhold til dette ene kriteriet. Riktignok er prøvenes kvalitet også vurdert i galluppundersøkelsen, men disse resultatene legges det mindre vekt på i rapporten. Selv om engelskprøvene kom meget godt ut der, får dette ingen betydning for rapportens konklusjon om ikke å rapportere resultater fra denne prøven.

Undersøkelsesmetoden for sensorreliabilitet
En av våre mest alvorlige innvendinger til utvalgsundersøkelsen gjelder den metoden som er brukt for å kartlegge sensorreliabiliteten. Som vi påpekte på møtet på Læringssenteret mellom fagmiljøene og utvalgsgruppen 9. juni, er metoden lite egnet til å undersøke påliteligheten i sensorbasert vurdering. Utvalgsundersøkelsen sammenlikner resultatene til én ”ekspertvurderer” mot resultatene til én lærer og mener dermed å kunne si noe om sensorenighet. Dette er ikke i tråd med anbefalte metoder for undersøkelser av sensorreliabilitet. For å si noe om sensorenighet bør man se på et stort antall sensorers bedømming av de samme besvarelsene og sammenlikne den enkelte sensors resultat mot snittet av alle resultatene. Klassiske testteoretiske tilnærminger som de som er brukt i utvalgsundersøkelsen, er for enkle til å ivareta alle faktorene ved sensorbasert vurdering. Heller enn å bruke klassiske reliabilitetsmål for objektivt skårete prøver, bør man bruke metoder fra moderne testteori som for eksempel generaliserbarhetsteori eller mangefasettert Raschanalyse (Crocker og Algina 1986, McNamara 1996, Linacre 1989, Moe 2003, Cushing Weigle 1994, 1998, Weir 2004-under trykking). Dette har vi også tatt opp med gruppen ved flere anledninger.

En annen betydelig svakhet er at man ikke har beregnet hver enkelt sensors interne konsistens. Det vil si at vi ikke vet om hver sensor er like streng hver gang han eller hun vurderer. Før det er gjort og inkonsistente sensorer er luket bort, er det meningsløst å begynne å sammenlikne sensorene med hverandre.

En tredje feilkilde er at lærerne har fått se sensorenes resultater før de sendte inn sine egne. Dette vil selvsagt ha kunnet påvirke resultatene, noe man også innrømmer i rapporten (8).

Disse metodiske svakhetene har blitt påpekt både før undersøkelsen ble gjennomført og etter vi mottok førsteutkastet til rapporten uten at det har fått noen konsekvenser for metoden. Da ville vi i det minste ha ventet at rapportskriverne hadde gjort greie for disse feilkildene og utvist den aller største forsiktighet i tolkningen av resultatene. De burde ha vært svært forskiktige med å trekke konklusjoner og komme med anbefalinger på grunnlag av resultater fra en undersøkelse med så store og påfallende svakheter.

Tolkning av resultatene
Resultatene av undersøkelsen av sensorreliabiliteten (37) viser at 43 % av vurderingene har vært helt identiske og 79 % av vurderingene er helt like eller avviker med et halvt nivå på CEF-skalaen. (Merk at i rapporten omtales de halve nivåer konsekvent som hele, noe som gir et inntrykk av at forskjellene mellom bedømmerne er større enn de er). Reliabiliteten estimeres til .66 for skriveprøven.

Dette er overraskende bra til å være første gang lærerne vurderer. For prøver som rettes av sensorer, er det svært vanskelig å oppnå reliabilitetsestimat på over .70, selv om man bruker vurderingskriterier og sensorer som har fått gjentatt sensoropplæring (Criper og Davies 1988, Carlsen 2004). Sauli Takala, som er en av Europas fremste eksperter på vurdering av språkferdigheter, kommenterer resultatene for skriveprøven i engelsk slik:

The fact that there was a degree of difference between teachers and raters is to be expected. It is possible to reach high agreement only after considerable training, discussion and feedback. The result was better than I would have expected […]. This is at least as good - in fact, somewhat better - as is common in the assessment of writing (Takala 2004 e-post).

Når man i rapporten tolker disse resultatene som langt fra bra nok (39), kan vi ikke annet enn tenke at det skyldes at rapportforfatterne ikke har nok erfaring med vurdering av denne typen prøver. Det kan virke som om deres forventninger til reliabiliteten er preget av forventningene til reliabilitet for objektivt skårete prøver. Det er urimelig og urealistisk. Man vil aldri få så høye reliabilitetsestimat for prøver i skriftlig fri produksjon. Det ville ha vært langt mer interessant om utvalgsundersøkelsen hadde sammenliknet resultatene på skriveprøvene i engelsk med andre prøver i fri skriftlig produksjon som rettes av sensorer.

Konklusjoner for skriveprøvene i engelsk
Rapporten konkluderer med at reliabiliteten er så lav at man fraråder å rapportere resultatene til skoleporten (38). Som vist er reliabiliteten høyere enn vi hadde forventet, og bortimot så høy som det er mulig å kreve av denne typen prøver. Å ikke rapportere resultatene vil potensielt få svært uheldige konsekvenser for engelskundervisningen: Det er en kjent sak i språkvurderingsfeltet at prøver som oppleves som viktige av brukerne, virker styrende på undervisningen (Alderson og Wall 1993, Bailey 1997, Wall 1997, Hamp-Lyons 1997, Messick 1996). De nasjonale prøvene er viktige både for lærere og elever. Det er derfor sannsynlig at prøvene vil påvirke hva man fokuserer på i klasserommet. Dette kalles med en fagterm for ”washback”-effekten, og defineres i moderne tilnærminger som et aspekt av validitet (Messick 1996, Hasselgreen 2004-under trykking). Washback-effekten er positiv hvis det å øve seg til prøven virker læringsfremmende, og negativ dersom de prøveforberedende aktivitetene virker læringshemmende. Direkte prøver i skriftlige og muntlige språkprøver knyttes ofte til positiv washback-effekt fordi elevene blir flinke til å skrive og snakke ved å øve seg til dem. Vi har forstått UFD slik at en hovedmålsetning med de nasjonale prøvene er at de på sikt skal føre til en heving av basisferdighetene. Det er ikke bare rapporteringsfunksjonen som er viktig, men også prøvenes rolle som pedagogiske verktøy. Hvis man ikke rapporterer resultatene for skriveprøven, vil det lett føre til mindre fokus på skriving i engelskundervisningen. Det samme vil være tilfelle for taleprøvene i engelsk og skriveprøvene i norsk. Vi synes rapportskriverne tar for lite hensyn til dette viktige aspektet av validitet til fordel for teknisk reliabilitet.

Rapporten konkluderer videre med at vanlig karaktersetting i stedet for CEF-skalaen ville ha gitt en høyere sensorreliabilitet (39). Som rapportskriverne selv påpeker, har de verken faglig eller empirisk grunnlag for å hevde dette: De kan ikke vise til høyere reliabilitetsestimat for tradisjonell vurdering med karakterer, ei heller at vurdering med grunnlag i ikke-spesifisert karakterskala skulle gi mer pålitelig vurdering en kriteriebasert vurdering. Tvert imot har forskning kunnet påvise manglende samsvar mellom lærere også for slik vurdering (Berge 1996). Vi er selvsagt enige i at det hadde vært en fordel om CEF allerede hadde vært kjent blant lærerne. Det ville ha lettet vårt arbeid. Men våre konklusjoner blir forskjellige: At det ikke er kjent, er jo nettopp en grunn til å ta det i bruk så det blir kjent. Vi mener det er så store fordeler med å knytte prøvene til internasjonalt anerkjente og validerte skalaer for ferdigheter, at det skal vektige argumenter til før vi går bort fra dette. Rapporten kommer ikke med slike argumenter. CEF-skalaen er en absolutt skala for språkferdigheter som beskriver utviklingen fra svært begrensete til svært gode, morsmålslike ferdigheter. Det gjør at vi kan stette kravet i mandatet fra UFD om at elevene skal kunne se sin progresjon fra testavvikling til testavvikling. Det lar seg ikke gjøre ved å bruke tradisjonelle karakterer. Det er dessuten svært problematisk å skulle innføre tradisjonelle karakterer i barneskolen.

Rapportgruppen foreslår også at vi burde gå over til å vurdere oppgave for oppgave, i stedet for trekk for trekk. Dette har vi tatt til etterretning så langt det lar seg gjøre. Vi har utviklet nye vurderingsskalaer der vi ber sensorene vurdere hver oppgave for seg og der beskrivelsene er spesifikke for de ulike tekstgenrene. Språkferdighetene mener vi likevel fremdeles det er mest hensiktsmessig å vurdere på tvers av oppgavene.

Oppsummering:
Formålet med utvalgsundersøkelsen var todelt: Den skulle undersøke om resultatene var av høy nok kvalitet til at det var forsvarlig å rapportere til skoleporten, og den skulle skaffe til veie kunnskap som kunne føre til at faggruppene kunne forbedre prøvene, gjennomføringsprosedyrene og vurderingen til neste år. Selv om diskusjonene rundt metoden for innsamling og analyse av data så vel som tilnærminger til og normer for kvalitetssikring av prøver, i og for seg har vært interessant, må vi dessverre konkludere med at undersøkelsen i svært liten grad har kunnet bringe til veie informasjon som vi kan gjøre nytte av i det videre arbeidet med prøvene. Dette skyldes delvis at prøvekvalitet defineres svært snevert, at undersøkelsesmetoden er uegnet, at analysen ikke er tilpasset skriftlige sensorbaserte prøver, og at tolkningen av resultatene vitner om lite kjennskap til denne typen prøver og til rammeverket vi knytter dem til. Av samme grunner kan vi ikke se at Utdanningsdirektoratet/ UFD kan stole på resultatene av denne undersøkelsen når det gjelder de skriftlige prøvene.

Vi anbefaler derfor at UFD gjennomfører en ny undersøkelse av kvaliteten til de av de nasjonale prøvene i produktive ferdigheter (skriveprøven i engelsk, taleprøven i engelsk, skriveprøven i norsk), og videre at dette gjøres av internasjonalt anerkjente fagpersoner som både kjenner til CEF og har erfaring fra forskning på slike prøver. Aktuelle fagpersoner kunne være Prof. Sauli Takala (University of Jyväskylä, Finland), Prof. Charles Alderson, (Lancaster University, UK), Dr. Glenn Fulcher, (University of Dundee, Skottland), Dr. Barry O’Sullivan (University of Surrey, Roehampton, UK) eller Dr. Neus Figueras (Generalitat de Catalunya, Barcelona, Spania). Gjennom vårt medlemskap i ALTE (Association of Language Testers in Europe) og EALTA (European Association of Language Testing and Assessment) har vi et stort nettverk av språktestforskere i Europa som trolig ville kunne bistå departementet med å gjennomføre en slik undersøkelse. Ettersom man kun kan oppnå reliable og valide resultater på denne typen prøver gjennom systematisk arbeid med vurderingskriterier og sensoropplæring over tid, burde dette tidligst gjøres om et par år. Først da kan vi forvente at det har oppstått et tilstrekkelig sterkt tolkningsfellesskap mellom sensorene. Til da anbefaler vi at resultatene rapporteres i skoleporten som en del av profilen i engelsk sammen med de øvrige språkferdighetene. Noe annet ville få konsekvenser som er i strid med prøvenes pedagogiske intensjoner.

En kort oppsummering av hovedpunktene i våre kommentarer til rapporten:

  • rapporten er ensidig fokusert på reliabilitet som en prøves kvalitet
  • utvalgsundersøkelsene er gjennomført med metoder som er uegnet for å undersøke kvaliteten til skriftlige prøver og resultatene blir derfor verdiløse
  • det kravet rapportgruppen stiller til reliabilitet (.85) er urealistisk for skriftlige prøver
  • reliabiliteten rapportgruppen finner for prøvene er bra hvis man sammenlikner med andre tilsvarende prøver
  • det ville få svært uheldige konsekvenser for engelskopplæringen om resultatene på skriveprøven ikke blir rapportert, fordi det lett kan føre til mindre fokus på fri skriving i undervisningen

Som sagt har det vært interessant å få anledning til å diskutere kvaliteten i engelskprøvene med en ekstern gruppe. Når vi i disse samtalene registrerer en såpass stor faglig uenighet mellom oss i faggruppen og rapportskriverne, skyldes det trolig at vi tilhører ulike disipliner. Klassisk psykometri som rapportskriverne representerer, er for begrenset til å fange opp kompleksiteten i vurdering av språkferdigheter. Derfor har også språktestingen i løpet av de siste 50 årene utviklet seg noe bort fra psykometrien den opprinnelig har sprunget ut av og utviklet egne metoder for å sikre validiteten og reliabiliteten som ivaretar de spesielle utfordringene språkvurdering innebærer (Spolsky 1995). Hovedutfordringen for språktestingen er å gjøre de viktige tingene målbare, og ikke de målbare viktige.

Bergen 19.10.04

For Nasjonale prøver i engelsk

Cecilie Carlsen Angela Hasselgreen Eli Moe

Litteratur:

Alderson, Charles og Diane Wall.1993 Does washback exist? Applied Linguistics 14, 115-29.

Bailey, Kathleen. 1996. Working for washback: a review of the washback concept in language testing. Language Testing 13,3: 257-80.

Berge, Kjell Lars. 1996. Norsksensorenes tekstnormer og doxa. En kultursemiotisk og sosiotekstologisk analyse. Dr.art avhandling. NTNU. Trondheim.

Carlsen, Cecilie. 2004. Guarding the Guardians. Rating scale and rater training effects on reliability and validity of scores of an oral test of Norwegian as a second language. Dr. art. avhandling. Universitetet i Bergen.

Clapham, Caroline og David Corson (red). 1997. Encyclopedia of language and education. Volume 7: Language testing and assessment. Kluwer Academic Publishers, London.

Criper, C. og Alan Davies. 1988. ELTS Validation Project Report. Cambrdige: University of Cambridge Local Examinations Syndicate.

Crocker, L. and J. Algina. 1986. Introduction to Classical & Modern Test Theory. New York: Harcourt Brace Jovanovich College Publishers.

Hasselgreen, Angela. 2004 (under trykking).Testing the Spoken English of Young

Norwegians: a study of test validity and the role of ‘smallwords’ in contributing to pupils’ fluency.Cambridge. Cambridge University Press.

Linacre, J. 1989. Many-faceted Rasch measurement. MESA Press, Chicago IL.

Linn, R. L .1989. Educational Measurement. New York: American Council on education .

McNamara, Tim. 1996. Measuring Second Language Performance. London: Longman.

Messick, Samuel. 1989. Validity. In R. L. Linn1989.

Messick, Samuel. 1996. Validity and washback in language testing. Language Testing, 13,3: 241-57.

Moe, Eli. 2004. Nasjonale prøver i engelsk- kvalitetssikring av utviklingsarbeidet. Rapport til Utdanningsdirektoratet. Upublisert.

Moe, Eli og Neil Jones. 2003. Using multi-faceted Rasch analysis to validate a test of writing. I Aud Marit Simensen (red) 2003.

Takala, Sauli. 2004 e-postkommunikasjon.

Simensen, Aud Marit (red). 2003. Acta Didactica: Teaching and learning a foreign or second language. Oslo.

Spolsky, Bernard. 1995. Measured Words.Oxford University Press.

Wall, Dianne. 1997. Impact and washback in language testing. I Clapham, Caroline og David Corson (red) 1997.

Weigle, Sara Cushing. 1994. Effects of Training on Raters of English as a Second Language

Compositions: Quantitative and Qualitative Approaches. PhD. avhandling. Los Angeles: University of California.

Weigle, Sara Cushing.1998. Using FACETS to model rater training effects. Language Testing 15 ,2: 263-87.

Weigle, Sara Cushing. 2002. Assessing Writing. Cambridge University Press. Cambridge.

Weir, Cyril. 2004-(under trykking). Language Testing and validation: and evidence based approach.