[leader]Traditioneel is het zo dat examens gaan over alles wat als doelen voor het onderwijs is vastgelegd. Dat veronderstelt dat kandidaten als onbeschreven blad het onderwijs binnenkomen, de stof tot zich nemen, en dan examen afleggen. Deze fictie kan tot ernstige problemen in het onderwijs leiden, omdat leerlingen niet adequaat worden begeleid bij het omvormen van hun wereldbeeld; het onderwijs in de natuurkunde biedt een helder casus. Examens zouden in dit opzicht makkelijk in validiteit tekort kunnen schieten. Nu is validiteit een vaag containerbegrip, maar dat is met de publicatie van Borsboom, Mellenbergh en Van Heerden (2004) veranderd.
[kop 1]Tabula rasa
Mijn intuïtie dat toetsen iets met onderwijs heeft te maken - en minder met psychometrie - leidde tot een boek over het ontwerpen van toetsvragen (1983). Nu ik met de herziening daarvan bezig ben, zie ik dat mijn werk nog steeds berustte op een schematische voorstelling van onderwijs als een proces waarin leerlingen zich aangeboden kennis eigen maken, waar dan passende toetsvragen bij zijn te ontwerpen. Dit naieve model deel ik overigens met ongeveer heel de wereld van 'educational measurement.' Maar zo werkt het niet in het onderwijs. Ik gebruik de klassieke natuurkunde van Newton als casus om een en ander te illustreren.
[kop 1]Aristoteles of Newton?
In zijn in 2006 opnieuw uitgebrachte Mechanisering van het wereldbeeld zet Dijksterhuis (1950) de natuurkunde van Aristoteles, die veel gemeen heeft met die van het ongewapende verstand, tegenover de abstracte natuurkunde van Newton, onze schoolnatuurkunde. De omslag kwam twee millennia na Aristoteles, met veel moeite en aarzeling, tot stand. 'Met de fouten en misvattingen die daarbij overwonnen moesten worden, worstelt in wezen nog heden ten dage iedere beginneling in de physica en in het beginonderwijs in dit vak speelt zich elk jaar in verkleinden maatstaf en versneld tempo een stuk van de geschiedenis opnieuw af.' En dan stelt Dijksterhuis de zaken nog mooier voor dan ze zijn. Hij besefte waarschijnlijk niet dat veel 'beginnelingen' met ondanks het gevolgde onderwijs met heel wat misvattingen blijven zitten. Toets alleen de natuurkunde uit het boek, dan kom je daar ook niet achter. Meten is hier nog niet weten. Er is in de VS een toets op die fouten en misvattingen gemaakt: de Force Concept Inventory (FCI) van David Hestenes (zie (de pdf van) Hestenes, Wells en Swackhamer, 1992). Het is de moeite waard enkele vragen uit die toets te bekijken in Rebello en anderen (2005, zie pdf) zoals die over de juiste ballistische baan voor de af te schieten kanonskogel.
[kop1]Wat beweegt?
Het is goed om voor het volgende een beeld te hebben van de enorme kloof die de leerling - excuus, de leraar - heeft te overbruggen. De natuurkunde van het gezonde verstand berust op wat iedereen denkt waar te nemen: om vooruit te komen is inspanning nodig. Bewegen kost kracht, alles wat beweegt wordt bewogen. Newton breekt daar radicaal mee, en presenteert laconiek een drietal wetten die dingen poneren die niemand kan zien, en in strijd lijken met wat iedereen wèl meent te zien. Op iets dat beweegt staat juist geen kracht, en waar die er wel is, verandert de beweging. Newton zet het Aristoteliaanse - gezond verstand - denken volledig op zijn kop. In feite bestaat die natuurkunde van het gezonde verstand uit een kluwen van dergelijke misvattingen, die in de genoemde toets zorgvuldig zijn onderscheiden en vertaald naat toetsvragen die een fijne diagnostiek van die misvattingen mogelijk maken.
[kop 1]FCI eyeopener
De vragen in die FCI zijn in de ogen van natuurkundigen 'te triviaal om informatief te kunnen zijn. Zij zijn geschokt te moeten ontdekken hoe beroerd hun eigen leerlingen deze vragen maken' (Hestenes en anderen, pagina 2). Dit verklaart het optimisme van Dijksterhuis: hij had geen FCI om af te nemen. De schok is ook dat leerlingen met nog behoorlijk wat misvattingen toch behoorlijk examenwerk kunnen leveren. Een veronderstelling van Hestenes is dat het mogelijk het geval is dat eenvoudige kwalitatieve vragen van het soort als in de FCI opgenomen in het onderwijs niet worden gebruikt omdat ze te moeilijk blijken. 'Studenten presteren beter op kwantitatieve problemen met een antwoord dat volgt uit substitutie in een of andere toepasselijke vergelijking, en zelfs op moeilijker problemen die algebraïsche bewerkingen vergen' (pagina 13). Hij is dan ook hard in zijn oordeel bij lage scores op de FCI die aan het eind van de cursus is afgenomen (pagina 13); 'Het is niet meer aanvaardbaar om lage toetsscores te wijten aan slecht voorbereid zijn van de studenten. Het belangrijke tekort is waarschijnlijk de gegeven instructie.'
[kop 1]Het onderwijs faalt de leerling
Dit is een adembenemend casus omdat het laat zien hoe traditioneel onderwijs en traditionele toetsconstructie het springende punt van het inleidende natuurkundeonderwijs missen: leerlingen hun naieve opvattingen laten ontgroeien en ze zo opvoeden tot een beter natuurkundig wereldbeeld. Traditioneel onderwijs is dan: uitgaan van de te bereiken doelen zoals geformuleerd in termen van kennis, inzicht en vaardigheden voor dit vak. Traditionele toetsconstructie zoals in Bloom , Hastings en Madaus (1971) te vinden, is gebaseerd op dat type schema. Het is een benadering die de leerling beschouwt als een onbeschreven blad, een blad dat ongehinderd met de nieuwe kennis valt te beschrijven. Wat niet het geval blijkt. Merk op dat uit een en ander volgt dat het lastig is vol te houden dat onder dit traditionele onderwijs het de leerling valt toe te rekenen de natuurkunde niet te begrijpen. Het is niet onwaarschijnlijk dat het onderwijs hier faalt, niet de leerling.
[kop 1]Nieuwe validiteit
Maar ook de constructie van deze diagnostische toets is adembenemend, want een toonbeeld van testconstructie zoals Borsboom, Mellenbergh en Van Heerden (2004, zie de pdf) uitleggen dat zij moet zijn. Zij bespreken zelf een in grote lijnen vergelijkbaar casus, dat van de balance scale test om Piagetiaanse ontwikkelingsstadia te meten. Zomaar een toets ontwerpen met veel balans-opgaven zal alleen toevallig iets van die verschillende ontwikkelingsstadia laten zien, dat kan dus geen valide toets zijn. Alleen in kaart brengen van de soorten misvattingen die typerend zijn voor de onderscheiden stadia maakt het mogelijk toetsvragen te ontwerpen die causale interpretaties toelaten. Toch is dat 'zomaar een toets ontwerpen' met veel opgaven over de gepresenteerde stof wat overal in examens gebeurt. Is dat alleen bij natuurkunde zo?
[kop 1]Conceptual change
Het kan enige jaren duren, althans in mijn geval, voordat de betekenis doordringt die deze feiten hebben voor het ontwerpen van toetsvragen - en van instructie. Een deel van dat proces van bewustwording is het groeiend besef dat het casus van Newton's bewegingswetten wereldfaam heeft, maar niet uniek is. Ieder vak heeft zo zijn eigen problemen om leerlingen de nodige begripsmatige ommezwaaien te laten maken. Conceptual change is the name of the game. Voor het ontwerpen van toetsvragen, vooral formatieve maar zeker ook summatieve, is de impact enorm, want het kan niet meer volstaan om stukjes van de mechanica in een toetsvraag te vangen: het gaat er ook om de leerlingen tot die begripsmatige ommezwaai te brengen - formatieve toetsvragen - en na te gaan of die ommezwaai heeft plaatsgevonden. Dat laatste is nog niet zo eenvoudig, want bewijst de kundige oplossing van een mechanica-probleem dat de leerling geen verborgen gebrek - geen naief model - meer heeft? Dat het doel van het onderwijs in feite een begripsmatige verandering naar de klassieke mechanica toe is, dat is een onverwachte wending. 'In feite'? Ja, de empirische literatuur laat immers zien dat wie daaraan voorbij gaat, dat doet tot schade van de leerlingen, en dat kan niet de bedoeling zijn. Ik neem een schitterend artikel - buitenlands, om het neutraal te houden - als casus.
[kop 1]Examencasus
Scott, Stelzer en Gladding (2006, zie pdf) onderzoeken of toetsen in keuzevorm betrouwbaar en valide genoeg zijn om de tot dan gebruikte open vragen te vervangen. Zij gebruiken statistische technieken op een manier die in de klassieke psychometrie niet gebruikelijk is, maar daar gaat het niet om. Hun materiaal en analyses zijn rijk genoeg om er twee dingen mee te doen: nagaan hoe zij omgaan met de thematiek van natuurkundige misvattingen bij deze undergraduate studenten, en bezien hoe hun benadering van betrouwbaarheid en validiteit zich verhoudt tot wat Borsboom en anderen (2004) daarover melden.
De Universiteit van Illinois heeft de afgelopen jaren haar undergraduate onderwijs in natuurkunde vernieuwd, nu rekening houdend met de begripsmatige omslag die studenten moeten maken. De oude vorm van toetsen, met open vragen voor erg grote aantallen studenten, was erg kostbaar en leidde tot onvrede onder de studenten, redenen genoeg dus om over te gaan op keuzetoetsen. Evalueren van die overgang op keuzetoetsen zou dan tenminste een check moeten zijn op de manier waarop studenten de stof aanpakken: als die al veranderd zou zijn, werkt die verandering dan gunstig uit voor het maken van die begripsmatige omslag? Deze aanpak zou dan zijn gericht op de oorzakelijke relatie (validiteit) tussen wat studenten in feite tijdens de instructie doen, en wat de vier toetsen - met samen ca. 125 keuzevragen - meten. Maar dat is niet wat Scott en andere doen.
[kop 1]Toch nog oude wijn in nieuwe zakken
Het uitgangspunt van Scott en anderen is, gezien hun analyses, dat keuzetoetsen de studenten in het bereik van A tot C grade points evenzo moeten ordenen als het geval zou zijn bij gebruik van open vragen en interviews. Borsboom en anderen kritiseren dat, omdat zo'n benadering, hoe gebruikelijk overigens ook in het onderwijsveld, er toe kan leiden dat lengte van studenten voortaan wordt gemeten door ze te wegen. Ik vat het wat cru samen, maar daar komt het wel op neer. De analyses van Scott en anderen laten zien dat 'lengte en gewicht' - hier dus open vragen en keuzevragen - vrijwel dezelfde ordening van studenten oplevert. Zij presenteren mooie analyses, niet helemaal zoals een psychometricus ze zou doen, maar juist daarom wel interssant. Wat niet wegneemt dat het een voorbeeld oplevert van zoeken waar het licht is.
Zo is voor iemand op afstand, een lezer van hun artikel op een ander continent, de grote vraag: hoe zit het eigenlijk met die D en F studenten die buiten de evaluatie zijn gehouden? Heeft het onderwijs hier gefaald om de nodige begripsmatige omslag tot stand te brengen? Hebben deze studenten het misschien moeilijker met keuzevragen dan met open vragen, of juist andersom?
Na het bestuderen van het onderzoek van Scott en anderen heeft de lezer geen antwoord op de vraag of de gebruikte keuzetoetsen recht doen aan wat studenten in het onderwijstraject doen en opsteken. Dat weten we trouwens ook niet over de oude toetsen met open vragen. De vraag naar de validiteit van de toetsen in Borsboomiaanse zin blijft onbeantwoord, al krijgen we wel veel tentatieve antwoorden over wat Scott en andere de betrouwbaarheid van het examen noemen. Zij nemen inderdaad voortdurend de drie tussentijdse en de afsluitende toets samen, volledig compensatorisch. In het bijzonder geven Scott en anderen geen antwoord op de vraag of het natuurkunde-onderwijs, onder andere gezien de resultaten op de keuzetoetsen, geslaagd is op de kerntaak: inzicht in de klassieke natuurkunde als onderscheiden van naieve natuurkundige opvattingen zoals aan het begin van de cursus nog aanwezig. Hoewel zij op de hoogte zijn van de CFI test op natuurkundige misvattingen, is er geen poging gedaan de overgang van open vragen naar keuzevragen te relateren aan misvattingen zoals door de CFI te meten. Al met al is de mooie, gedetailleerde, deels experimentele, en overigens op grote groepen data uitgevoerde studie, een gemiste kans onder het motto 'meten is weten.' En dat is begrijpelijk gezien de huidige literatuur over educational measurement, maar dat moet de komende jaren toch anders kunnen. Bijvoorbeeld zoals de poging van Redish en Bao (2006, zie pdf) om het ontwerpen van keuzevragen op deze vergaande eisen te enten.
[kop 1]Zodoende
Het gaat hier om een algemeen probleem dat het onderwijs - mèt zijn toetsen en examens - in de kern van zijn kwaliteit raakt. Nu we dit weten, kunnen we het meten, kunnen we examens strenger ontwerpen als onderzoek van veranderd inzicht. Op geen enkele manier komt dit weten voort uit de psychometrische gereedschapsdoos. Er is bijna een eeuw getoetst volgens psychometrische methoden, zonder uit al die gegevens geleerd te hebben dat er iets ontbreekt aan het ontwerp van al die toetsen, dat die toetsen mogelijk niet volledig recht doen aan de doelen van het onderwijs, dat er een probleem is met hun validiteit. Doorbraken zijn hier niet uit de psychometrie gekomen, maar uit de cognitieve psychologie, een tak van sport die onder andere door 'Het denken van den schaker' (lees voor de schaker: Max Euwe) van A.D. de Groot een ommezwaai in de psychologie kon brengen. Eigenlijk is dat laatste al een onderzoek zoals Borsboom en anderen dat bedoelen naar de validiteit van het schaakspel als toets op het spelinzicht van de schaker.
Literatuur
Bloom, B.S., Hastings, J.Th., & Madaus, G.F. (Eds) (1971). Handbook on formative and summative evaluation of student learning. London: McGraw-Hill.
Borsboom, D., Mellenbergh, G.J., & Van Heerden, J. (2004). The concept of validity. Psychological Review, 111, 1061-1071.
users.fmg.uva.nl/dborsboom/borsboomValidity2004.pdf
Dijksterhuis, E.J. (1950). De mechanisering van het wereldbeeld. Amsterdam: Meulenhoff.
Hestenes, D., Wells, M., & Swackhamer, G. (1992). Force Concept Inventory. The Physics Teacher, 30, 141-158.
http://www.modeling.asu.edu/R&E/FCI.PDF (broken?)
Rebello, N.S., Zollman, D.A., Allbaugh, A.R., Engelhardt, P.V., Gray, K.E., Hrepic, Z., & Itza-Ortiz, S.F. (2005). Dynamic Transfer: A Perspective from Physics Education Research. In Mestre, J.P.: Transfer of learning: from a modern multidisciplinary perspective (p. 217-250). San Francisco: Sage.
www.physik.uni-mainz.de/lehramt/epec/zollman1.pdf
Redish, E. F., & Bao, L. (2006). Model analysis: Representing and assessing the dynamics of student learning. Physical Review Special Topics - Physics Education Research, 2
http://www.prst-per.aps.org/pdf/PRSTPER/v2/i1/e010103 (broken?)
Scott, M.L., Stelzer, T., & Gladding, G.E. (2006). Evaluating multiple-choice exams in large introductory physics courses. Phys. Rev. ST Phys. Educ. Res. 2, 020102 1-14.
http://www.prst-per.aps.org/abstract/PRSTPER/v2/i2/e020102 (broken?)
Wilbrink, B. (1983). Toetsvragen schrijven. Utrecht, Het Spectrum, Aula 809.
www.benwilbrink.nl/projecten/06aToetsvragen1.htm
[auteursgegevens]De auteur is freelance adviseur en onderzoeker, over toetsen, toetsvragen ontwerpen, examens, selectie, en arbeidsmarkt. www.benwilbrink.nl
Meer literatuur
Innovations in Undergraduate Physics Education at Illinois http://research.physics.uiuc.edu/PER/Course_Revisions.html
David K. Campbell, Celia M. Elliot and Gary E. Gladding (1997). Parallel Parking an Aircraft Carrier: Revising the Calculus-Based Introductory Physics Sequence at Illinois. Forum on Education, August. http://units.aps.org/units/fed/newsletters/aug97/index.cfm
Robert Lukhele, David Thissen and Howard Wainer (1994). On the Relative Value of Multiple-Choice, Constructed Response, and Examinee-Selected Items on Two Achievement Tests. Journal of Educational Measurement, 31, 234.
Michael C. Rodriguez. (2003) Construct Equivalence of Multiple-Choice and Constructed-Response Items: A Random Effects Synthesis of Correlations. Journal of Educational Measurement 40:2, 163-184
Michael Kane, Terence Crooks and Allan Cohen. (1999) Validating Measures of Performance. Educational Measurement: Issues and Practice 18:2, 5-17.
Sheila Tobias and Jacqueline B. Raphael (1996). In-class examinations in college-level science: New theory, new practice. Journal of Science Education and Technology, 5. No free download. Does anyone have a copy for me?
Ronald K. Thornton and David R. Skoloff (1998). Assessing student learning of Newton's laws: The Force and Motion Conceptual Evaluation and the Evaluation of Active Learning Laboratory and Lecture Curricula.
Robert J. Beichner (1994). Testing student interpretation of kinematics graphs. Am. J. Phys., 62, 750-762. pdf
22-8-2006
'dekking van de stof' is dus een heel verschrikkelijk idee. Het gaat er onder andere om of de begripsmatige ommezwaai is gemaakt, of de leerling zich een goed verbonden conceptueel netwerk heeft gevormd, of de leerling de wereld nu op een andere manier kan zien, in staat is om goede vragen over de wereld te stellen, adequate modellen te poneren, etcetera. Iedere vraag dekt de stof, zou je eigenlijk kunnen zeggen.
Mogelijk kom ik dan uit op een vereenvoudigde stelling, die ongeveer langs deze lijnen zou kunnen lopen: De dimensie abstract-concreet is al heel belangrijk in het ontwerp van toetsvragen. Maar dat is altijd nog iets waarbij niets tegenhoudt dat vragen op op geisoleerde onderdelen van de stof etcetera worden geënt, er gepraat kan worden over representatieve dekking van de stof zeg maar. Een Dijksterhuis-laag verder raak je verzeild in de ultieme doelen van het onderwijs, in de problematiek van transfer, maar dan heel bepaald langs cognitief-psychologische lijnen ingevuld, onder het regime van de harde natuurkundige theorie waar het hier toevallig over gaat, en sterk terugharkend naar het onderwijs zelf dat immers een begripsmatige ommezwaai moet bewerkstelligen door de leerling voortdurend uit te nodigen kritische vragen aan de wereld te stellen: aan empirische resultaten bij proefopstellingen, aan leraren die onbegrijpelijke dingen beweren, aan leerlingen die net iets anders beweren dan jij zelf ziet gebeuren, dus de Deanna Kuhn benadering zeg maar.
De psychometrie heeft hierin geen productieve rol, integendeel, die bestendigt het 'representatief voor de stof' denken, hoe meer daarvan wordt beheerst hoe beter (verondersteld kwantitatief), terwijl er een aanwijsbaar mega-probleem ligt bij een diepere ondergrond: is deze beheersing van 'de stof' wel goed begripsmatig verankerd (kwalitatief), is de leerling nu in staat natuurkundige problemen ook buiten de directe onderwijscontext adequaat modelmatig te benaderen (transfer, ook weer kwalitatief). Dat alles heeft te maken met de rijkheid van het conceptuele netwerk dat de leerling zich heeft gevormd. Heel dit complex stelt andere eisen aan het ontwerp van examens. Niet dat de techniek van het ontwerpen van keuzevragen nu moet worden omgegooid, dat is niet aan de orde. Maar het onderwerp van de toets, van het examen wordt nogal ingrijpend anders. Twee dingen: (1) de oude doelstellingenmatrix die richtinggevend was voor het 'de stof dekkend maken' van de toets, en dus ook voor het ontwerp van afzonderlijke toetsvragen - waar nog in de zeventiger jaren dikke boeken over werden geschreven - wordt nu vervangen door iets dat veel complexer is. (2) Het tweede ding is: stel dat je toetsen en examens volgens die nieuwe lijn zou ontwerpen (Borsboom en anderen 2004: validiteit is oorzakelike relatie tussen het attribuut en de scores op de test), en dat ook het onderwijs daarop is ingericht, zouden de toetsen en examens de leerlingen dan werkelijk anders ordenen? In heel grote lijnen, en werkend met het beschikbare psychometrische apparaat: niet echt (zoals ordenen op gewicht ongeveer dezelfde resultaten oplevert als ordenen op lengte). Toetsen we nu heel andere dingen? Ja en nee. De wetten van Newton veranderen er niet door. Maar het is geen geweldig idee meer om heel ingewikkelde dingen te vragen waarin de razend intelligente leerlingen kunnen schitteren tegenover hun minder bedeelde klasgenoten. Dat is toch ook niet waar het om hoort te gaan, laten we wel wezen. Dat is een nauwelijks verhuld prijzen-denken, met daarop afgestemde toetsvragen. Omdat je nu het idee wat los kunt laten dat het vooral gaat om de 'mate van beheersing van de wetten van Newton' - daar heel veel over weten en razendsnel opgaven kunnen maken (Cambridge), kun je beginnen te zien dat toetsen moeten gaan over de adequate benadering van de wereld in Newtoniaanse termen: kunnen leerlingen situaties begrijpen en vertalen in Newtoniaanse termen? De toetsvragen mogen nu niet alleen niet meer abstract zijn, ze mogen ook niet meer schools zijn, gebonden aan de school-context op die honderd-en-een subtiele en minder subtiele manieren waarop zoiets gebeurt.
Kijk, zo'n programma gaat in tegen het denken van veel betrokkenen, misschien wel van alle betrokkenen, en zeker dat van politici en in het algemeen degenen die aan de geldkraan zitten. Het is heel wat lastiger om standards te bedenken die gaan over begripsmatige netwerken, over transfer van het op school geleerde naar het dagelijkse en het beroepsmatige leven. Ook weer het dilemma van Deanna Kuhn. Kunnen we desalniettemin een begin maken? Ja, dat moet kunnen. De wapens zijn: validering, uitgewerkte methoden voor het ontwerp van onderwijs en van toetsvragen, altijd maar weer kritische vragen stellen bij alles wat abstract is, uitgaan van de stof in plaats van het denken van de leerling, uitgaat van individuele verschillen in plaats van de begripsmatige omslag die leerlingen individueel moeten maken, pogingen te kwantificeren wat in de grond van de zaak kwalitatief is.
[Over dat laatste, overigens: dat is toch een bekend probleem, daar is toch het nodige over bekend? Als je in je methoden en technieken voortdurend dat kwantitatieve benadrukt, of de beheersing van de ene leerlingen beter of uitgebreider is dan die van de ander, dan blijft alle nadruk toch vallen op beheersing van de aangeboden stof, onder verwaarlozing van al die leerlingen die de begripsmatige ommezwaai niet hebben gemaakt of onvolledig hebben gemaakt en die noodgdwongen terug moeten grijpen op ontoereikende technieken om zich de examenstof eigen te maken (uit het hoofd leren, stampen)? In de recente Amerikaanse literatuur over effecten van high stakes testing moet dat toch een hoofdthema zijn, zou je haast zeggen: alle berichten aan de leerlingen zeggen dat er op de tests moet worden gepresteerd, wat iets anders is dan leren de goede vragen aan de wereld te stellen, en deze anders te leren zien. Met andere woorden, de naieve ideeën van politici drukken de nu ruimschoots beschikbare inzichten over hoe onderwijs beter kan, volledig uit de markt. Ik ben dus geen pessimist waar het gaat om de nu uit wetenschappelijk onderzoek verkregen beschikbare kennis over hoe onderwijs op andere manieren kan (wat niet hetzelfde is als de stelling dat onderwijsonderzoek veel heil en zegen heeft gebracht, daar gaat de stelling van Lagemann helaas op, uitzonderingen daargelaten). Nee, het baanbrekende onderzoek komt uit andere kwartieren, waaronder de cognitieve psychologie.
19-8-2006
- Het aardige is dat nu veel minder dan in het traditionele model voor toetsen de individuele leerling degene is die verantwoordelijk is voor de geleverde prestatie. Immers, redelijkerwijs mag van kwalitatief goe donderwijs worden verwacht dat het de leerling in staat stelt de begripssprong te maken. Blijft die achterwege, dan is in eerste aanleg de reden daarvoor bij falend onderwijs te zoeken. De leerling kan immers niet volledig verantwoordelijk worden gehouden voor een conceptuele verandering waarvan zij niet kan vermoeden waar die heen gaat en moet eindigen. (Variant op de paradox van Meno).
- Hebben we bij dit alles iets aan de psychometrie? Niet echt. Er moeten bij het formatief en summatief toetsen natuurlijk geen dolle dingen worden gedaan, daar kan enige psychometrische wijsheid wel bij helpen. Maar aan het eind van de dag is het niet de psychometrie die dit alles tot een goed einde kan brengen.
- Ondertussen heeft de adviseur van buiten, de deskundige onderwijs- of toetsontwikkelaar, wel een enorm dilemma. Het onderwijs is immers gebonden aan een in wetten, regels, tradities en cultuur vastgelegd regime. Het is out of the question daarin zomaar in te breken. Ik ben dus heel benieuwd hoe dat op die talloze plekken in het natuurkunde-onderwijs gaat, waar een en ander van het hier geschetste programma serieus wordt genomen.
- Wat is voor de arme adviseur de te bewandelen weg, gezien de opdoemende dilemma's? Het houvast is hier uiteindelijk niet de psychometrie, maar wel de kwaliteitseis van validiteit (Borsboom en anderen 2004). Het is hard te maken dat volharden in eenzijdig toetsen een ernstige inbreuk kan zijn op de redelijkerwijs te stellen eisen van geldigheid voor de formatieve zoals als de summatieve toetsen. In bijzondere gevallen kan daarbij steun worden gezocht in elders verricht empirisch onderzoek en ontwikkelingswerk in programmatuur (Deanna Kuhn gaat daar heel ver in).
15-8-2006
Mechanica is een boeiend casus, dat mogelijk staat voor een fenomeen dat veel breder in het onderwijs aan de orde is. De rol van de ontwerper van toetsvragen wordt dan een pikante: hij of zij gaat zich meer met de inhoud van het onderwijs bemoeien, en gaat mogelijk ver over de grenzen van een specifieke cursus heen. Dat ziet er naar uit dat er behoorlijk wordt afgedwaald van de psychometrische gereedschapskist.
Het toetsen op de kwaliteit van het model van de student is in feite evaluatie van het gegeven onderwijs, zolang tenminste aannemelijk is dat de student een behoorlijke inspanning heeft gepleegd.
Goed. Maar waar ik eigenlijk over na had gedacht: over het onderwscheid tussen toets en test, of ik dat vandaag de dag nog net zo zou formuleren. Nee, denk ik. Ik had er de volgende aantekeningen bij:
Het idee is dat in het mechanica casus het zo is dat een toets opgezet volgens de hierboven geschetste lijn, niet op heel korte termijn door de student is voor te bereiden, al zou hij/zij dat willen. Natuurlijk wel wanneer de exacte vragen tevoren uitlekken. Dat is dus een situatie die heel erg veel lijkt op wat er bij intelligentietesten gebeurt. Of denk je de situatie in van psychologische tests op bepaalde kenmerken, die tevens onderwerp van instructie, behandeling (gedragstherapie), of ontwikkeling (Piaget) zijn. Iedereen werkt er hard aan om een situatie te bewerkstelligen die vervolgens met een psychologische test aantoonbaar is. In die zin blijft er dus nauwelijks een wezenlijk onderscheid over tussen toets en test. Maar hoe zit het dan met de doorzichtigheid van De Groot? Hij heeft het toch over een kwaliteitseis die bij toetsen, en niet bij tests speelt? Hij bedoelt dat bij tests de testee bepaalde dingen maar beter niet kan weten, om niet bedoeld of onbedoeld de 'meting' in de war te sturen. Bij toetsen ligt dat anders, wordt er veel bekend gemaakt over de toetsing, zodat er gerichte voorbereiding op mogelijk is. Hard studeren, dus. Maar de preciese items moeten wel geheim blijven, anders kan op oneigenlijke gronden een mooie score op de toets worden gehaald.
Zou je nu kunnen zeggen dat het een psychometrische eis is dat het te toetsen domein een voldoende groot aantal equivalente items moet toelaten, omdat anders de toets een aanfluiting wordt? Dat lijkt me toch geen geweldig moeilijke eis waar je de psychometrie voor nodig hebt om hem onder woorden te brengen. Geen psychometrie hier, dus. Maar kun je psychometriche methoden gebruiken om itemstatistieken te analyseren in relatie tot gegeven vraagstellingen? Aha, als dat standaard-psychometrische vraagstellingen zijn, is er sprake van psychometrie pur sang. Maar als het vraagstellingen zijn die uit de hoek van validering komen, dan zijn de technieken alleen maar ondersteunend om de gestelde hypothesen onderzoekbaar te maken. Het onderzoekbaar maken van die hypothesen is veel meer een kwestie van inrichting van de toets en de toetssituatie, dan van berekeningen over scores etcetera (dat is allemaal achteraf gedoe, maar je vooraf weten wat je wilt weten/meten. Nietwaar? Dat was mijn motto.)
14-8-2006
1. Gek eigenlijk, dat bij het ontwerpen van toetsen, maar ook bij het opstellen van eindtermen!, zo eenzijdig naar te verwerven kennis wordt gekeken, dus met voorbijgaan van hoe deze geïntegreerd moet worden/zijn met 'oude kennis', met bestaande en meestal naieve modellen van de wereld. Zoiets heb ik al een eerste formulering gegeven.
2. Voor het ontwerp van eindtoetsen moet deze overweging verschil maken. Dat is een kwestie van valideren, kun je zeggen, en dat is dan ook een goede kapstok om het aan op te hangen.
Voor de eindtoetsing moet dus voorop staan of de nieuw verworven inzichten 'geïntegreerd' zijn, dus niet alleen maar of er kunstjes zijn geleerd. Dat gaat dus een fundamentele stap verder dan de vraag of nieuwe kennis ook in nieuwe situaties kan worden toegepast: de vraag is of in echt nieuwe situaties, dus zonder de impliciete context van het onderwijs, naieve concepties niet nog steeds een belemmering vormen. Dat is dus heel leuk geformuleerd, maar door de gekozen formulering is al duidelijk dat dit voor formele toetsing eigenlijk per definitie een brug te ver is. Want die formele toetsing biedt juist een extreem sterke impliciete context. Is die spanning te overbruggen? Te verminderen? Welke compromissen zijn hier mogelijk? Heeft de psychometrie hier ook maar iets nuttigs te suggereren?
3. Laten we proberen een bruggetje te krijgen door naar de formatieve toetsing te kijken. Of, sterker uitgedrukt: probeer die summatieve toetsen eens te zien als formatieve toetsen, waarvan nog een hoop kan worden geleerd. Nou, ik moet niet overdrijven. Laat ik eens een softe definitie voor summatieve toets neerzetten: een summatieve toets gaat over (een belangrijk deel van) een cursus in zijn geheel, de impliciete context is nog steeds sterk aanwezig, maar bevat minder sterke hints naar specifieke onderdelen van de stof. Integendeel, als het even kan moet de student in staat zijn wendbaar met de nieuwe kennis om te gaan, dwarsverbindingen kunnen maken die eerder nog niet zijn gemaakt, althans niet op deze manier (maar natuurlijk wel vergelijkbaar, er wordt niets gevraagd waarop de student niet goed voorbereid zou kunnen zijn).
4) Assessment of learning mag in deze zin opgevat dus best? Ja, omdat in deze opvatting het leren nadrukkelijk die persoonlijke groei is, assessment is dus assessment van groei. Dat laat de mogelijkheid open dat die assessment gebeurt op zo'n manier dat de student er voor verdere groei weinig of niets aan heeft. Dan hebben we een probleempje. Dat probleempje kan makkelijk ontstaan, of hardnekkig blijken, wanneer in onze assessment toolbox alleen psychometrische methoden zitten. En een bos politieke opvattingen die het moeilijk maken door persoonlijke vergelijking, standards, en de hele reutefleut heen te kijken naar hoe deze individuele leerling nog een stukje kan 'groeien.' Formatieve toetsing is ingebed in de instructieve context, de volgende instructieve stappen hangen mede van de ervaringen op de formatieve toets af. Die formatieve toets moet dus zo zijn ingericht, de vragen moeten zo zijn ontworpen, dat de antwoorden, of de wijze van antwoorden, richting geven aan hoe het verder moet, ofwel aangeven dat er het een en ander als afgesloten kan worden beschouwd zodat nieuwe onderwerpen aan de orde kunnen komen, or what not. Misschien is het handiger om aan te geven wat zo'n formatieve toets NIET moet zijn: een snelle check of de kunstjes zijn geleerd. Dat is wel helder. Dan moeten de vragen dus zo zijn ontworpen dat de student actief moet modelleren, en het resultaat daarvan, of ook de tussenstappen, of alleen de eerste stap, moet melden. Op een paper-en-pencil test, of in een dialoog met de docent, of in dialoog met een of meer medestudenten, of in dialoog met een computerprogramma. Mogelijkheden te over.
5. Bij dit alles dus voortdurend de vraag: helpt de psychometrie ons hierbij, verder, of van de regen in de drup?
Wanneer het niet lukt zich te bevrijden van de betrouwbaarheidsfictie (Borsboom en anderen: validiteit is voorwaarde voor betrouwbaarheid. Dat schept een hoop helderheid, het maait all gras weg voor de voeten van al diegenen die de lastige validaitsvraag uit de weg gaan, en zich beperken tot betrouwbaarheidsanalyses, vanuit het ide dat betrouwbaarheid toch een voorwaarde voor validiteit zou zijn), het naieve model van de toetsenmaker zeg maar, maar ook van de meer professionle testontwerper (die zal het niet naief noemen, maar juist zijn professionele model), dan is het lastig de stap te zetten: er zijn immers minder 'vergelijkbare cijfertjes' te verzamelen. Gaat het daarom? Misschien wel, dat zou best aardig zijn om iets uit te werken. Er zijn best scherpe voorbeelden te geven van waar het hier om gaat: als het zo is dat de leerling van zijn naieve model naar een wetenschappelijk model moet groeien, dan is er waarschijnlijk een moment dat een of twee cruciale vragen voldoende zijn om het welslagen daarvan te toetsen. Dat geeft al aan dat een formele summatieve toetsing in een klassikale onderwijsituatie een beetje onzin is voor deze leerling: zijn docent weet al dat het doel van het onderwijs voor hem is bereikt.
juli 2006
Het is vrij algemeen bekend dat een toetsresultaat tenminste een product is van goede voorbereiding en intellectuele capaciteiten, en dat die goede voorbereiding nog weer afhankelijk is van beschikbare tijd en motivatie. Daar vliegt de interpreteerbaarheid van toetsresultaten volgens het psychometrische model dus al de schoorsteen uit. Geen nieuws. Maar wat ik er aan toe wil voegen is tenminste het volgende. Het fenomeen van het Aristotelische denkmodel in de natuurkunde is verhelderend, want het laat zien dat toetsscores ook beroerd kunnen zijn omdat er gewoon beroerd onderwijs is gegeven. Kijk, dat blijft toch wel erg makkelijk buiten beeld, omdat het leren vooral als verantwoordelijkheid van de individuele leerling wordt gezien. Dat veronderstelt dat de leraar, de instelling, de overheid er alles aan heeft gedaan om de gunstige omstandigheden voor dat leren te scheppen. Dat blijkt dus aantoonbaar onjuist te zijn, tenminste bij het natuurkundeonderwijs. En ik geef je op een briefje dat dat ook voor andere vakken wel eens leuk op zou kunnen gaan. Kijk, dat beeld heb ik dus steeds sterker, omdat ik er gewoon iedere keer weer bij mijn literatuurspeurtochten opnieuw op stuit. Daar komt dan nog bij wat ik aan historische ontwikkelingen rond het toetsen, het /meten van vorderingen', boven water haal, zoals vandaag het boek van Lageman. Het gigantische contrast tussne de benadering van Thorndike en die van Dewey.
Waarom is dat mental model bovendien zo verhelderend: vanuit de psychometrie zal er nooit een vermoeden van het bestaan van het fenomeen opborrelen.
Het zou mooi zijn wanneer er vormen van onderwijs zijn die de leerlingen toerusten, of in ieder geval de gelegenheid geven en ertoe aanzetten, om zèlf met de eigen mental models in de slag te gaan, en deze te vervangen, te verfijnen, of uit te breiden met nieuwe inzichten. Deanna Kuhn is bezig met iets dat daar verdraaid veel op lijtk. Ik moet Deanna dus nog eens bekijken op welke gevolgen een zo doorgevoerd programma heeft voor de manier van feedback geven in het onderwijs. Want daar komt toetsen toch op neer, niet? Feedback. Terugkoppeling. Begeleiding, hulp, iedere klas een masterclass.
Lagemann p. 50: Instead of approaching education as a means for training inborn capacities, Dewey approached education as a means for nurturing new social capacities, especially the skills, orientations, and knowledge necessary to building and sustaining a democraic community.
* Misschien is dat probleem wel: Is er een wezenlijk verschil tussen de formatieve en de summatieve toets waar het gaat om het ontwerp van de vragen die erin komen?
- De mathematical tripos duurde op een gegeven moment acht volle dagen, maar door de band genomen is de tijd die feitelijk aan het afleggen van een examen wordt besteed, belachelijk kort in vergelijking tot de tijd voorafgaand besteed in spanning en nervositeit. Dat betekent heel veel, maar wat?
- Voor velen is het examen een formele afronding, met wat gedoe en circus, maar zo is dat altijd gegaan. Alleen vervelend dat er wel degelijk een kans op een ongeluk is, juist omdat die examens helemaal zijn dichtgeregeld en er in feite maar beperkte mogelijkheden zijn om ongelukken te repararen (enige herkansing op een of twee onderdelen). Immers, om allerlei misstanden tegen te gaan, incidentenpolitiek heet dat, de waan van de dag zeg maar, vliegt het examen zoveel mogelijk op objectieve automatische piloot, en is menselijk ingrijpen uitgesloten, ook bij noodlandingen. Leuk beeld, kan ik gebruiken. [Bij verdenking van fraude: een 1 voor het examenwerk. Hoe je zoiets bedenkt kan ik nog wel begrijpen, maar dit soort zaken in wetten en regels gieten is rampzalig voor een goede evolutie van examens]
- Voor een behoorlijke handvol tot, zeg, vaak ongeveer de helft van de kandidaten is het een gok. Ha, dat is ook een prachtig punt. De psychometricus gaat onbekommerd aan de institutionele kant zitten, wikt en weegt zijn betrouwbaarheden en itemparameters, en wil aan het eind van de dag zo weinig mogelijk fuss rond de aftestgrens, ook al weet hij dat er verschrikkelijk veel kandidaten rond die aftestgrens zitten.
- In termen van het verborgen curriculum: wij leren een niet onbelangrijk deel van onze jeugd dat, althans voor hen, examens kansspelen zijn.
Waarom laten we al die ellende toe? Ooit ging het geweldig, werden kandidaten alleen tot het examen toegelaten wanneer ze geacht werden ervoor te slagen, wat dan ook vrijwel altijd gebeurde. Weten we niet meer wanneer een leerling 'klaar' is voor het examen, in deze klassieke zin? Let wel: die mathematical tripos was afgedwaald van de juist beschreven middeleeuwse vorm, hoewel in de middeleeuwen competitie bepaald niet onbekend was. Immers, om als arme student later voor een prebende in aanmerking te komen, moest je jezelf wel in de kijker spelen, door goede resultaten. Intellectuele strijd was gebruikelijk, mocht hard zijn , en had een groot publiek wanneer het er werkelijk om spande. Examens werden in beginsel ook voor publiek uitgespeeld, omdat er immers een proeve van vakbekwaamheid moest worden afgelegd, waartoe onder houden het geven van een college behoorde. Zo'n examen kon je dus goed, of minder goed doen, maar eenmaal toegelaten, was je al geslaagd.
Het is vandaag de dag allemaal, in wat afgevlakte en gestileerde vorm, terug te zien in de academische promotie. Een hele oploop, maar de afloop is tevoren bekend. Voor de promovendus heel spannend ook, dat is niet het punt.
Daarom, wat is er mis gegaan, hoe is dat misgegaan, met welke problemen heeft dat ons opgezadeld, en hoe buigen we de zaak weer een beetje in goede vorm terug?
Doen we het zoals we het doen omdat het dwingend volgt uit wat de samenleving vraagt? Nee, daarvoor is er teveel variëteit van land tot land.
Doen we het zoals we het doen omdat de partijen die er belangen bij hebben, er in hun onderlinge strijd op deze manier uit zijn gekomen? Daar lijkt het toch verdacht veel op.
Doen we het zoals we het doen, omdat we nu over psychometrische inzichten beschikken die er vóór Edgeworth niet waren? Wat een onzin. Die psychometrie is het knechtje van belanggroeperingen, laat zich gebruiken, en heeft ondertussen zijn eigen belangengroepen gecreeerd. Tel uit je winst.
Dat de leerlingen het nakijken hebben, dat is niet zo verwonderlijk. In het Amerikaanse hoger onderwijs is aanwijsbaar dat de studenten het gelag betalen, en ondertussen beroerd onderwijs krijgen. Maar dat hun ouders het allemaal pikken, tja, dat is toch wel opmerkelijk. Zou dat toch met grove eigenbelangen, of ook met oude klassenscheidingen, hebben te maken?
Wat valt er te melden van het front? Van assessment FOR learning, bijvoorbeeld? Van pogingen om via het studiehuis de starre examens onder druk te zetten, en het meten van wat uiteindelijk maatschappelijk niet geweldig relevant is, te vervangen door het vormen van de lerende en onderzoekende geest waar de leerlingen het vervolgens driekwart eeuw mee moeten zien te redden?
Als je het bovenstaande leest, dan lijkt het er erg op dat ik naar degelijk, ouderwets, onderwijs terugwil. Op een bepaalde manier is dat zo: uiteindelijk moet het in onderwijs gebeuren, niet tijdens 'tig toetsen en examens. In die zin is het onvermijdelijk dat op den lange duur het onderwijs evolueert naar een zeer hoog percentage van de tijd van de studenten dat direct in onderwijsactiviteiten wordt besteed.
Het probleem is natuurlijk dat ons massale en langdurige onderwijs niet kan worden verzorgd door een hoogwaardig docentenkorps zoals dat, zeg, begin 20e eeuw in het onderwijs aanwezig was. Niet alleen zouden de kosten daarvan veel te hoog zijn, maar de mensen zijn eenvoudig in die aantallen niet beschikbaar. Het zal wat de inzet van menskracht betreft, met bescheiden middelen moeten. De hoop is dus gevestigd op methoden en hulpmiddelen die het desondanks mogelijk maken het onderwijs hoogwaardig te laten zijn. Dan mag er wel eens iets meer in onderzoek en ontwikkeling worden geinvesteerd, en niet alleen in Nederland. Maar laat ik niet klagen.
En dan komen we vanzelf weer terug op een springend punt. De politiek denkt dat gestandaardiseerde toetsen en examens tenminste een belangrijk deel van de oplossing zijn, op zichzelf al, en omdat ze op een mysterieuze manier 'het onderwijs' zullen dwingen kwaliteit te leveren. Dat laatste is dus een fictie, en de vraag is in hoeverre psychometrisch denken daarin bevestigend werkt. Het is de psychometricus niet eigen om vanuit heel andere (wetenschappelijke) kaders naar zijn objecten van onderzoek en toepassing te kijken.
Maar hoe zit het dan met e-learning, COO en allerlei andere technologische ontwikkelingen die docenten werk uit handen zouden kunnen nemen, of docentvervangend zijn?
Literatuur etc. niet in de tekst genoemd
Jennifer G. Cromley and Robert J. Mislevy (2005). Task Templates Based on Misconception Research. PADI | Principled Assessment Designs for Inquiry, Technical Report 6. pdf
David Hammer, Andrew Elby, Rachel E. Scherr, and Edward F. Redish (2005).Resources, Framing, and Transfer In Jose P. Mestre (Ed.) (2005). Transfer of learning: from a modern multidisciplinary perspective (p. 89-119. San Francisco: Sage. pdf (concept). Zie in het bijzonder p. 115 Implications for physics instruction.
Joel Michell (2000). Normal Science, Pathological Science and Psychometrics. Theory & Psychology, 10, 639-667. pdf
Robert J. Mislevy, Linda S. Steinberg and Russell G. Almond (2003). On the structure of educational assessments. CSE Technical Report 597. http://149.142.210.8/reports/TR597.pdf (broken?)
Richard E. Snow (1993). Construct validity and constructed-response tests. In Randy Elliot Bennett and William C. Ward Construction versus choice in cognitive measurement (p. 61-73). Erlbaum.
Max Planck Institute for the History of Science. Research Activities on Mental Models of Science. =http://www.mpiwg-berlin.mpg.de/en/forschung/themes.html?themes=Mental%20Models%20of%20Science (broken?)
Physics Education Research. Department of Physics, University of Illinois at Urbana-Champaign. site
Thomas Christian Thaden-Koch (2003). A coordination class analysis of college students' judgments about animated motion. University of Nebraska dissertation in partial fulfillment of requirements for the degree of doctor of philosophy. Major: Physics & Astronomy. pdf
Michael L. Scott, Tim Stelzer, Gary E. Gladding (2006). Evaluating multiple-choice exams in large introductory physics courses. Phys. Rev. ST Phys. Educ. Res. 2, 020102 , (2006). html
http://www.benwilbrink.nl/publicaties/06begintermenexamens.htm