Begintermen

Toetsen op veranderd begrip

Ben Wilbrink

Traditioneel is het zo dat examens gaan over alles wat als doelen voor het onderwijs is vastgelegd. Dat veronderstelt dat kandidaten als onbeschreven blad het onderwijs binnenkomen, de stof tot zich nemen, en dan examen afleggen. Deze fictie kan tot ernstige problemen in het onderwijs leiden, omdat leerlingen niet adequaat worden begeleid bij het omvormen van hun wereldbeeld; het onderwijs in de natuurkunde biedt een helder casus. Examens zouden in dit opzicht makkelijk in validiteit tekort kunnen schieten. Nu is validiteit een vaag containerbegrip, maar dat is met de publicatie van Borsboom, Mellenbergh en Van Heerden (2004) veranderd.

Tabula rasa

Mijn intuïtie dat toetsen iets met onderwijs heeft te maken - en minder met psychometrie - leidde tot een boek over het ontwerpen van toetsvragen (1983). Nu ik met de herziening daarvan bezig ben, zie ik dat mijn werk nog steeds berustte op een schematische voorstelling van onderwijs als een proces waarin leerlingen zich aangeboden kennis eigen maken, waar dan passende toetsvragen bij zijn te ontwerpen. Dit naieve model deel ik overigens met ongeveer heel de wereld van 'educational measurement.' Maar zo werkt het niet in het onderwijs. Ik gebruik de klassieke natuurkunde van Newton als casus om een en ander te illustreren.

Aristoteles of Newton?

In zijn in 2006 opnieuw uitgebrachte Mechanisering van het wereldbeeld zet Dijksterhuis (1950) de natuurkunde van Aristoteles, die veel gemeen heeft met die van het ongewapende verstand, tegenover de abstracte natuurkunde van Newton, onze schoolnatuurkunde. De omslag kwam twee millennia na Aristoteles, met veel moeite en aarzeling, tot stand. 'Met de fouten en misvattingen die daarbij overwonnen moesten worden, worstelt in wezen nog heden ten dage iedere beginneling in de physica en in het beginonderwijs in dit vak speelt zich elk jaar in verkleinden maatstaf en versneld tempo een stuk van de geschiedenis opnieuw af.' En dan stelt Dijksterhuis de zaken nog mooier voor dan ze zijn. Hij besefte waarschijnlijk niet dat veel 'beginnelingen' ondanks het gevolgde onderwijs met heel wat misvattingen blijven zitten. Toets je alleen de natuurkunde uit het boek, dan kom je daar ook niet achter. Meten is hier nog niet weten. Er is in de VS een toets op die fouten en misvattingen gemaakt: de Force Concept Inventory (FCI) van David Hestenes (zie (de pdf van) Hestenes, Wells en Swackhamer, 1992). Het is de moeite waard enkele vragen uit die toets te bekijken in Rebello en anderen (2005, zie pdf) zoals die over de juiste ballistische baan voor de af te schieten kanonskogel.

Wat beweegt?

Het is goed om voor het volgende een beeld te hebben van de enorme kloof die de leerling - excuus, de leraar - heeft te overbruggen. De natuurkunde van het gezonde verstand berust op wat iedereen denkt waar te nemen: om vooruit te komen is inspanning nodig. Bewegen kost kracht, alles wat beweegt wordt bewogen. Newton breekt daar radicaal mee, en presenteert laconiek een drietal wetten die dingen poneren die niemand kan zien, en in strijd lijken met wat iedereen wèl meent te zien. Op iets dat beweegt staat juist geen kracht, en waar die er wel is, verandert de beweging. Newton zet het Aristoteliaanse - gezond verstand - denken volledig op zijn kop. In feite bestaat die natuurkunde van het gezonde verstand uit een kluwen van dergelijke misvattingen, die in de genoemde toets zorgvuldig zijn onderscheiden en vertaald naat toetsvragen die een fijne diagnostiek van die misvattingen mogelijk maken.

FCI eyeopener

De vragen in die FCI zijn in de ogen van natuurkundigen 'te triviaal om informatief te kunnen zijn. Zij zijn geschokt te moeten ontdekken hoe beroerd hun eigen leerlingen deze vragen maken' (Hestenes en anderen, pagina 2). Dit verklaart het optimisme van Dijksterhuis: hij had geen FCI om af te nemen. De schok is ook dat leerlingen met nog behoorlijk wat misvattingen toch behoorlijk examenwerk kunnen leveren. Een veronderstelling van Hestenes is dat het mogelijk het geval is dat eenvoudige kwalitatieve vragen van het soort als in de FCI opgenomen in het onderwijs niet worden gebruikt omdat ze te moeilijk blijken. 'Studenten presteren beter op kwantitatieve problemen met een antwoord dat volgt uit substitutie in een of andere toepasselijke vergelijking, en zelfs op moeilijker problemen die algebraïsche bewerkingen vergen' (pagina 13). Hij is dan ook hard in zijn oordeel bij lage scores op de FCI die aan het eind van de cursus is afgenomen (pagina 13); 'Het is niet meer aanvaardbaar om lage toetsscores te wijten aan slecht voorbereid zijn van de studenten. Het belangrijke tekort is waarschijnlijk de gegeven instructie.'

Het onderwijs faalt de leerling

Dit is een adembenemend casus omdat het laat zien hoe traditioneel onderwijs en traditionele toetsconstructie het springende punt van het inleidende natuurkundeonderwijs missen: leerlingen hun naieve opvattingen laten ontgroeien en ze zo opvoeden tot een beter natuurkundig wereldbeeld. Traditioneel onderwijs is dan: uitgaan van de te bereiken doelen zoals geformuleerd in termen van kennis, inzicht en vaardigheden voor dit vak. Traditionele toetsconstructie zoals in Bloom , Hastings en Madaus (1971) te vinden, is gebaseerd op dat type schema. Het is een benadering die de leerling beschouwt als een onbeschreven blad, een blad dat ongehinderd met de nieuwe kennis valt te beschrijven. Wat niet het geval blijkt. Merk op dat uit een en ander volgt dat het lastig is vol te houden dat onder dit traditionele onderwijs het de leerling valt toe te rekenen de natuurkunde niet te begrijpen. Het is niet onwaarschijnlijk dat het onderwijs hier faalt, niet de leerling.

Nieuwe validiteit

Maar ook de constructie van deze diagnostische toets is adembenemend, want een toonbeeld van testconstructie zoals Borsboom, Mellenbergh en Van Heerden (2004, zie de pdf) uitleggen dat zij moet zijn. Zij bespreken zelf een in grote lijnen vergelijkbaar casus, dat van de balance scale test om Piagetiaanse ontwikkelingsstadia te meten. Zomaar een toets ontwerpen met veel balans-opgaven zal alleen toevallig iets van die verschillende ontwikkelingsstadia laten zien, dat kan dus geen valide toets zijn. Alleen in kaart brengen van de soorten misvattingen die typerend zijn voor de onderscheiden stadia maakt het mogelijk toetsvragen te ontwerpen die causale interpretaties toelaten. Toch is dat 'zomaar een toets ontwerpen' met veel opgaven over de gepresenteerde stof wat overal in examens gebeurt. Is dat alleen bij natuurkunde zo?

Conceptual change

Het kan enige jaren duren, althans in mijn geval, voordat de betekenis doordringt die deze feiten hebben voor het ontwerpen van toetsvragen - en van instructie. Een deel van dat proces van bewustwording is het groeiend besef dat het casus van Newton's bewegingswetten wereldfaam heeft, maar niet uniek is. Ieder vak heeft zo zijn eigen problemen om leerlingen de nodige begripsmatige ommezwaaien te laten maken. Conceptual change is the name of the game. Voor het ontwerpen van toetsvragen, vooral formatieve maar zeker ook summatieve, is de impact enorm, want het kan niet meer volstaan om stukjes van de mechanica in een toetsvraag te vangen: het gaat er ook om de leerlingen tot die begripsmatige ommezwaai te brengen - formatieve toetsvragen - en na te gaan of die ommezwaai heeft plaatsgevonden. Dat laatste is nog niet zo eenvoudig, want bewijst de kundige oplossing van een mechanica-probleem dat de leerling geen verborgen gebrek - geen naief model - meer heeft? Dat het doel van het onderwijs in feite een begripsmatige verandering naar de klassieke mechanica toe is, dat is een onverwachte wending. 'In feite'? Ja, de empirische literatuur laat immers zien dat wie daaraan voorbij gaat, dat doet tot schade van de leerlingen, en dat kan niet de bedoeling zijn. Ik neem een schitterend artikel - buitenlands, om het neutraal te houden - als casus.

Examencasus

Scott, Stelzer en Gladding (2006, zie pdf) onderzoeken of toetsen in keuzevorm betrouwbaar en valide genoeg zijn om de tot dan gebruikte open vragen te vervangen. Zij gebruiken statistische technieken op een manier die in de klassieke psychometrie niet gebruikelijk is, maar daar gaat het niet om. Hun materiaal en analyses zijn rijk genoeg om er twee dingen mee te doen: nagaan hoe zij omgaan met de thematiek van natuurkundige misvattingen bij deze undergraduate studenten, en bezien hoe hun benadering van betrouwbaarheid en validiteit zich verhoudt tot wat Borsboom en anderen (2004) daarover melden.

De Universiteit van Illinois heeft de afgelopen jaren haar undergraduate onderwijs in natuurkunde vernieuwd, nu rekening houdend met de begripsmatige omslag die studenten moeten maken. De oude vorm van toetsen, met open vragen voor erg grote aantallen studenten, was erg kostbaar en leidde tot onvrede onder de studenten, redenen genoeg dus om over te gaan op keuzetoetsen. Evalueren van die overgang op keuzetoetsen zou dan tenminste een check moeten zijn op de manier waarop studenten de stof aanpakken: als die al veranderd zou zijn, werkt die verandering dan gunstig uit voor het maken van die begripsmatige omslag? Deze aanpak zou dan zijn gericht op de oorzakelijke relatie (validiteit) tussen wat studenten in feite tijdens de instructie doen, en wat de vier toetsen - met samen ca. 125 keuzevragen - meten. Maar dat is niet wat Scott en andere doen.

Toch nog oude wijn in nieuwe zakken

Het uitgangspunt van Scott en anderen is, gezien hun analyses, dat keuzetoetsen de studenten in het bereik van A tot C grade points evenzo moeten ordenen als het geval zou zijn bij gebruik van open vragen en interviews. Borsboom en anderen kritiseren dat, omdat zo'n benadering, hoe gebruikelijk overigens ook in het onderwijsveld, er toe kan leiden dat lengte van studenten voortaan wordt gemeten door ze te wegen. Ik vat het wat cru samen, maar daar komt het wel op neer. De analyses van Scott en anderen laten zien dat 'lengte en gewicht' - hier dus open vragen en keuzevragen - vrijwel dezelfde ordening van studenten oplevert. Zij presenteren mooie analyses, niet helemaal zoals een psychometricus ze zou doen, maar juist daarom wel interssant. Wat niet wegneemt dat het een voorbeeld oplevert van zoeken waar het licht is.

Zo is voor iemand op afstand, een lezer van hun artikel op een ander continent, de grote vraag: hoe zit het eigenlijk met die D en F studenten die buiten de evaluatie zijn gehouden? Heeft het onderwijs hier gefaald om de nodige begripsmatige omslag tot stand te brengen? Hebben deze studenten het misschien moeilijker met keuzevragen dan met open vragen, of juist andersom?

Na het bestuderen van het onderzoek van Scott en anderen heeft de lezer geen antwoord op de vraag of de gebruikte keuzetoetsen recht doen aan wat studenten in het onderwijstraject doen en opsteken. Dat weten we trouwens ook niet over de oude toetsen met open vragen. De vraag naar de validiteit van de toetsen in Borsboomiaanse zin blijft onbeantwoord, al krijgen we wel veel tentatieve antwoorden over wat Scott en andere de betrouwbaarheid van het examen noemen. Zij nemen inderdaad voortdurend de drie tussentijdse en de afsluitende toets samen, volledig compensatorisch. In het bijzonder geven Scott en anderen geen antwoord op de vraag of het natuurkunde-onderwijs, onder andere gezien de resultaten op de keuzetoetsen, geslaagd is op de kerntaak: inzicht in de klassieke natuurkunde als onderscheiden van naieve natuurkundige opvattingen zoals aan het begin van de cursus nog aanwezig. Hoewel zij op de hoogte zijn van de CFI test op natuurkundige misvattingen, is er geen poging gedaan de overgang van open vragen naar keuzevragen te relateren aan misvattingen zoals door de CFI te meten. Al met al is de mooie, gedetailleerde, deels experimentele, en overigens op grote groepen data uitgevoerde studie, een gemiste kans onder het motto 'meten is weten.' En dat is begrijpelijk gezien de huidige literatuur over educational measurement, maar dat moet de komende jaren toch anders kunnen. Bijvoorbeeld zoals de poging van Redish en Bao (2006, zie pdf) om het ontwerpen van keuzevragen op deze vergaande eisen te enten.

Zodoende

Het gaat hier om een algemeen probleem dat het onderwijs - mèt zijn toetsen en examens - in de kern van zijn kwaliteit raakt. Nu we dit weten, kunnen we het meten, kunnen we examens strenger ontwerpen als onderzoek van veranderd inzicht. Op geen enkele manier komt dit weten voort uit de psychometrische gereedschapsdoos. Er is bijna een eeuw getoetst volgens psychometrische methoden, zonder uit al die gegevens geleerd te hebben dat er iets ontbreekt aan het ontwerp van al die toetsen, dat die toetsen mogelijk niet volledig recht doen aan de doelen van het onderwijs, dat er een probleem is met hun validiteit. Doorbraken zijn hier niet uit de psychometrie gekomen, maar uit de cognitieve psychologie, een tak van sport die onder andere door 'Het denken van den schaker' (lees voor de schaker: Max Euwe) van A.D. de Groot een ommezwaai in de psychologie kon brengen. Eigenlijk is dat laatste al een onderzoek zoals Borsboom en anderen dat bedoelen naar de validiteit van het schaakspel als toets op het spelinzicht van de schaker.

Literatuur

Bloom, B.S., Hastings, J.Th., & Madaus, G.F. (Eds) (1971). Handbook on formative and summative evaluation of student learning. London: McGraw-Hill.

Borsboom, D., Mellenbergh, G.J., & Van Heerden, J. (2004). The concept of validity. Psychological Review, 111, 1061-1071.
users.fmg.uva.nl/dborsboom/borsboomValidity2004.pdf

Dijksterhuis, E.J. (1950). De mechanisering van het wereldbeeld. Amsterdam: Meulenhoff.

Hestenes, D., Wells, M., & Swackhamer, G. (1992). Force Concept Inventory. The Physics Teacher, 30, 141-158.
http://www.modeling.asu.edu/R&E/FCI.PDF (broken?)

Rebello, N.S., Zollman, D.A., Allbaugh, A.R., Engelhardt, P.V., Gray, K.E., Hrepic, Z., & Itza-Ortiz, S.F. (2005). Dynamic Transfer: A Perspective from Physics Education Research. In Mestre, J.P.: Transfer of learning: from a modern multidisciplinary perspective (p. 217-250). San Francisco: Sage.
www.physik.uni-mainz.de/lehramt/epec/zollman1.pdf

Redish, E. F., & Bao, L. (2006). Model analysis: Representing and assessing the dynamics of student learning. Physical Review Special Topics - Physics Education Research, 2
http://www.prst-per.aps.org/pdf/PRSTPER/v2/i1/e010103 (broken?)

Scott, M.L., Stelzer, T., & Gladding, G.E. (2006). Evaluating multiple-choice exams in large introductory physics courses. Phys. Rev. ST Phys. Educ. Res. 2, 020102 1-14.
http://www.prst-per.aps.org/abstract/PRSTPER/v2/i2/e020102 (broken?)

Wilbrink, B. (1983). Toetsvragen schrijven. Utrecht, Het Spectrum, Aula 809.
www.benwilbrink.nl/projecten/06aToetsvragen1.htm