Toetsslimheid & de Cito Eindtoets Basisonderwijs (voor ouders)

Ben Wilbrink


Deze pagina sluit aan op: Oefenen voor de Citotoets of niet: that's the question. Door Willem Smit gestarte draad op de website van Beter Onderwijs Nederland hier.


Test-wiseness -Nederlands toetsslimheid of testslimheid - is maar één van de zaken die van belang zijn binnen het thema voorbereidbaarheid, in het algemeen, en van de Cito Eindtoets Basisonderwijs in het bijzonder. Het gaat om handigheid bij het aanpakken van de opdrachten in de toets. Bij de Eindtoets is dat versmald tot het aanpakken van vierkeuzevragen.


Toetsslimheid is een specifieke intellectuele vaardigheid, een persoonlijk kenmerk waarop leerlingen verschillen. In de mate waarin test-wise leerlingen beter scoren dan overigens even bekwame leerlingen, meet de Cito-toets de verkeerde vaardigheid. Dat is even ernstig als onbedoeld benadelen van leerlingen met Nederlands als tweede taal, om maar eens iets te noemen. De algemene noemer van dit soort scheef meten is wat in de literatuur bekend staat als scheefheid, partijdigheid of bias. Een al wat ouder proefschrift over partijdigheid is dat van Frank Kok (1988). Vraagpartijdigheid. Het belang van dat proefschrift is bovendien dat Kok de Eindtoets 1983 heeft onderzocht.


Ik neem als uitgangspunt het boek van Jason Millman en Walter Pauk (1969). How to take tests. Mc-Graw Hill. Daaruit hoofdstuk 8 Objective test items. Dit hoofdstuk is gebaseerd op Jason Millman et al. (1965). An analysis of test-wiseness. Educational and Psychological Measurement, 25. Dit lijkt heel ver weg, maar er is in de toetswereld op dit punt de laatste halve eeuw weinig veranderd. Meer recent werk is te vinden door te googlen op Millman en test-wiseness. Een goede indruk, ook van de commerciële kant: http://www.perfectionlearning.com/images/products/pdfs/bts/bts.researchpaper.pdf. Lees het argwanend.


Ik zal straks voor ieder van de vragen in de Eindtoets voor ouders 2010 pdf aangeven waar en waarom ik vermoed dat toetsslimheid een rol speelt. Het is aardiger dat u eerst zelf die vragen eens kritisch tegen het licht houdt, en pas daarna mijn commentaar leest. Gebruik dan de test-wiseness onderwerpen die ik nu kort langsloop, uit hoofdstuk 8 van Millman en Pauk.



Grappig is dat Millman en Pauk gebreken in toetsvragen afzonderlijk noemen, nr. 12, terwijl onder de overige 11 punten toch ook veel gebrekkigheid voorkomt. Het probleem is dat Millman en Pauk bepaalde gebreken van meerkeuzevragen niet als zodanig willen aanmerken. De punten 3, 4, 5 en 6 zouden m.i. tot de studievaardigheden van alle leerlingen moeten behoren, althans zolang zij te maken blijven hebben met high-stakes tests zoals de Eindtoets, dus toetsen waar henzelf veel van afhangt. In dit specifieke geval hebben school en leerlingen hetzelfde belang.


stelling. Als testslimheid een rol lijkt te kunnen spelen bij een toetsvraag, dan is dat een gebrek van de toetsvraag, een verkeerd ontwerp dus. (Voor slimheid 3, 4, 5 en 6: als die buitenproportioneel sterk spelen)


In mijn Toetsvragen ontwerpen hier is de insteek dan ook dat het ontwerp van de toetsvraag testslimme kandidaten geen voordeel op moet leveren. (Op de punten 3, 4, 5 en 6 mag een redelijke basisvaardigheid bij alle leerlingen worden verondersteld)


Even terug naar de in de voorgaande draad genoemde triarchic intelligences van Robert Sternberg (cognitieve, creatieve en practische intelligentie). Bij Millman & Pauk nr 2. zou het zomaar kunnen zijn dat de creatief ingestelde leerlingen meer moeite hebben om de bedoeling van de ontwerper van de vraag te ontdekken: zij zijn er juist goed in om andere 'bedoelingen' te bedenken. De praktisch intelligente leerlingen zouden ook een handicap kunnen hebben als het zo is dat de vragen in de Eindtoets voortdurend aanspraak maken op slim redeneren, in plaats van praktisch redeneren.


Een heel ander probleem ligt op de loer voor leerlingen met Nederlands als tweede taal. Ik wil op dit grote probleem in deze draad niet diep ingaan. In de engelstalige literatuur zijn wel publicaties te vinden over tests voor test-wiseness bij leerlingen met Engels als tweede taal (ESL, English as Second Language).


Tenslotte is een ernstig en verwant probleem dat van toetsangst (Joost Meijer; test anxiousness, Spielberger), een soort negatieve testslimheid. Dit is een probleem dat meer aan de kant van de leerlingen lijkt te liggen, dan aan die van de toets. Maar we zouden samen (veld, politiek) kunnen besluiten dat we geen Eindtoetsen of andere high stakes toetsen meer afnemen.


Vooraf.


Deze hele oefening is natuurlijk tentatief. Waar gaat het om: als vragen in de Eindtoets de indruk kunnen wekken dat de toetsslimme leerlingen er een voordeeltje bij hebben, dan is het aan het Cito om aannemelijk te maken dat die indruk onjuist is. Bewijzen dat bepaalde toetsvragen partijdig zijn, is methodologisch buitengewoon lastig (Frank Kok), en is naar mijn smakk ook niet de manier waarop mogelijk partijdige toetsvragen het best gesignaleerd kunnen worden. Beter: geef na afname de hele Eindtoets vrij, zodat belangengroepen de vragen zelf kunnen onderzoeken op mogelijke partijdigheid.


Omdat gevoeligheid voor toetsslimheid zo nauw samenhangt met gebreken in het ontwerp van een toetsvraag, is het mogelijk om gevoeligheid voor toetsslimheid op te sporen door te onderzoeken of er zwakten zitten in het ontwerp.


Het kan best blijken, bij grondige analyse van enkele Eindtoetsen langs deze lijnen, dat het nauwelijks mogelijk is om goede vierkeuzevragen te ontwerpen. Als dat zo blijkt te zijn, is de conclusie dat de Eindtoets in deze vorm niet valt vol te houden.


Let op. Het gaat om verschillen in toetsslimheid. We hebben geen belangstelling voor niveaus van toetsslimheid waarvan het evident is dat alle deelnemers daar wel aan voldoen. Hetzelfde voor verschillen in intelligentie: een toetsvraag toetst op intelligentie naarmate verschillen in intelligentie bepalend zijn voor het resultaat. Toetsslimheid en intelligentie hebben veel met elkaar te maken, zijn deels gelijk, zij het dat toetsslimheid op korte termijn wel deels is te trainen, intelligentie niet, tenzij het een training is voor een specifieke intelligentietest.




De hier te analyseren Eindtoets voor ouders 2010 staat op de website van het Cito http://www.cito.nl/po/lovs/eb/Cito_EB09_EindtoetsOuders.pdf.


1. Panische apen. Bij deze vraag hoort een 19-regelig verhaal. De vraag doet dus aanspraak op het vermogen van de leerling om die informatie geduldig op te nemen. In deze oudertoets is het toevallig de eerste vraag, maar je moet er toch niet aan denken dat de echte Eindtoets onderdelen heeft die met zo'n imponerende vraag beginnen!

De stem van de vraag is tamelijk ingewikkeld: een leesopdracht, met een aanduiding van welke regel, gebruik van citeertekens (waarbij het sluitende citeerteken ontbreekt!). De leerling moet hier echt moeite doen de bedoeling van de vraagsteller te begrijpen.

De directe vraag is: "Wat past het best achter paniekreactie? (r. 10)." Dit is geen volledige vraag, in de zin dat deze goed is te beantwoorden zonder de alternatieven gezien te hebben. Het is bijvoorbeeld niet mogelijk om, alleen de stam van de vraag gelezen hebbende, advies 3. van Millman & Pauk op te volgen: eerst de vraag beantwoorden zonder de alternatieven gezien te hebben. Al met al zorgt deze vraag voor extra cognitieve belasting, je moet op verschillende plekken kijken om je informatie bij elkaar te halen, teruglezen, nog eens checken. De toetsslimme leeerling heeft dat in de gaten, en doet haar best om er kalm bij te blijven en gewoon iets meer tijd voor de vraag te nemen dan anders nodig zou zijn.

Van de vier alternatieven zijn er waarschijnlijk twee heel eenvoudig als onjuist weg te strepen. Dat moet de leerling die niet zeker is van zichzelf is, dan wel actief doen (nr. 7 M&P). Maar is het de bedoeling van het basisonderwijs om deze vaardigheid bij te brengen? Nee. Dus wat doen alternatieven C en D hier eigenlijk? Was het niet beter geweest ze weg te laten?

De kern van vraag 1 lijkt dan te zijn of aanvulling van de zin met 'blindelings' beter is dan met 'naderhand.' (nr 6. M&P) Vraag dat dan op die manier, rechtstreeks. Dan is het nog maar de vraag wat de overweging van de leerling is geweest om A ipv B te kiezen, of omgekeerd. Ik zou als ontwerper toch meer geïnteresseerd zijn in mogelijke overwegingen, en daar een directe vraag over hebben gesteld. Nu is dat niet gebeurd, en moet de leerling dus oppassen om niet een creatieve motivering ten gunste van alternatief B te bedenken: dat wordt afgestraft. (nr 2 M&P, creatieve intelligentie Sternberg). Tenslotte: deze ene vierkeuzevraag vergt enorm veel toetstijd. Behoorlijk ondoelmatig ook. Zou bovendien een verkeerde indruk kunnen wekken: als er zoveel tekst nodig is, en je zoveel moeite moet doen voor het beantwoorden, dan moet het wel over iets belangrijks gaan. En dat blijkt niet zo. (nr 1. M&P: Attempt every question. Remember that questions which look complicated and involved may not be so difficult once you get into them.)


2. verkeerd gespeld

Ik begrijp niet hoe het mogelijk is dat dit type vraag in de Eindtoets voorkomt: is het dan een doel van het taalonderwijs om door anderen gemaakte spellingsfouten te herkennen? Kan iemand dit uitleggen? Tja, hoe moet je anders op spelling toetsen met meerkeuzevragen? Maar als dit geforceerd is, dan moet je het niet doen: het toetst niet precies goed kunnen spellen.

Vraag 2 en 3 zijn vragen zonder een behoorlijke stam, dus vragen waarop advies 3. van M&P niet toepasbaar is.

Vraag 2 en 3 zijn veel te uitvoerig en verbaal voor het toetsen op het kunnen spellen van 'vreemdste'. Niet alleen is dat ondoelmatig, het geeft ook een verkeerde indruk: zoiets simpels, zo'n uitvoerige vraag, klopt dat wel?


3. verkeerd gespelt

Zie opmerkingen bij vraag 2.

De leerling moet zich hier niet van de wijs laten brengen door de tegenwoordige tijd in C., tegenover de verleden tijd in de andere alternatieven. Bovendien is die tegenwoordige tijd in alternatief C ongebruikelijk, de gebruikelijk uitspraak zou zijn veroorzaakte. Hier moet de toetsslimme leerling dus goed in de gaten houden wat de vragensteller bedoelt (nr. 2 M&P), altrenatieven B. en C. met elkaar vergelijken (nr 6. M&P), redeneren (nr 7. M&P) dat B in ieder geval een spellingsfout heeft, en er maar één onjuist antwoord is bedoeld te zijn.


4. neerslachtig

Leuk gevonden, deze alternatieven. Humor kan ik wel waarderen. De leerling die eerst zelf het antwoord geeft, komt er wel uit. (Nr. 3 M&P) Wie niet zeker is, moet kiezen tussen 'heel erg moe' en 'in een sombere bui'. De toetsslimme leerling beredeneert dan (nr. 7 M&P) dat heel erg moe zijn en in een sombere bui zijn, vaak samengaan, maar dat alleen maar erg moe zijn zonder somber te zijn, niet neerslachtig is. Dit lijkt me een tamelijk zuiver voorbeeld van wat M&P met beredeneren van het juiste alternatief bedoelen. Hier is toetsslimheid voor nodig.

Maar de leerling die om te beginnen al weet dat neerslachtig somber is, die kruist toch meteen het goede alternatief aan? Helemaal niet, tenminste niet als zij toetsslim is, want dan gaat ze volgens advies nr. 4 van M&P na hoe het zit met de andere alternatieven, komt erop uit dat er twee aannemelijke alternatieven zijn met elkaar vergeleken moeten worden (nr 6 M&P) en komt dan uit op de noodzaak om te beredeneren welk alternatief het beste is (nr 7. M&P).

Ik vraag me af wat alternatieven A en D hier eigenlijk doen: 'bang voor regen' en 'tegen geweld'. Ik vind dit een ontwerpfout: dit zijn waarschijnlijk onzinalternatieven, en met onzin hoor je leerlingen niet op te zadelen. (Het is best mogelijk dat bij een try-out in de ontwikkelfase er leerlingen zijn geweest die hebben opgeschreven dat neerslachtig betekent 'bang voor regen', of 'tegen geweld', maar dan nog geldt dat het voor de meeste leerlingen onzin is). De toetsslimme leerling hoeft er niet mee te zitten, die streept de onzin nuchter weg. Het kost wel tijd, allemaal.

5 ondanks de handenarbeidles

(twee onzinalternatieven, daar is al het nodige over gezegd)

Het is even zoeken, allemaal, dat had beter gekund door in de tekst desondanks vet te drukken. De toetsslimme leerling loopt de adviezen 3, 4, 5, 6 en 7 van M&P langs: wat denk ik zelf dat er op de plek van 'desondanks' moet staan, hoe verhouden de twee aannemelijke alternatieven zch tot de gegeven tekst, en hoe in vergelijking tot elkaar, en kan ik beredeneren welk alternatief dan beter moet zijn? Als laatste check dan nog advies nr. 2: is mijn redenering en uitkomst ook wat de vragensteller bedoelt? Ik weet natuurlijk niet wat de ontwerper hier precies voor ogen heeft gestaan, maar het lijkt te zijn dat de handwerkles eruit springt, tegenover een over het geheel genomen positieve indruk, zodat het 'ondanks' moet zijn. Maar een even overtuigende redenring valt te geven voor 'dankzij.' Want het tweede en het laatste zinnetje zijn bepaald dubbelzinnig: 'Gelukkig vond mijn moeder het toch wel leuk.' en 'En meester Hoeven was eigenlijk best aardig.' Dat kan zomaar het beeld omdraaien: door de bank genomen was het niet leuk, behalve de handwerkles die het beeld 'toch we;' kon omdraaien.

Wat doet de toetsslimme leerling die in een dilemma is geraakt, en er ook niet meer uikomt door te bedenken wat de vragensteller hier bedoelt? Die schrijft een toelichting bij het gegeven antwoord, en na afloop gaat er een aangetekende brief naar het Cito. Of iets dergelijks. (Toetsslimme ouders)


6. Rekenen

De toetsslimme leerling laat zich door de plaatjes niet van de wijs brengen. In dit geval staat de informatie in het plaatje, niet in de tekst van de vraag. Er is voor de ontwerper geen enkele dwingende reden om het zo te doen. Dit is werkelijk een beroerd vraagontwerp. De vraag had zonder afbeelding moeten zijn.

Als rekenopgave is deze vierkeuzevraag verder geen probleem.


7. samen delen

Ik houd niet van dit soort som, maar verder valt er weinig op aan te merken. (het gaat om het opstellen van het juiste rekenmodel, ik heb liever een vraag daarnaar, dan een vraag waarin alleen het antwoord moet worden gegeven).

Toetsslimheid: de opgave goed lezen, je realiseren hoe je dit zou kunnen berekenen (het rekenmodel) en dat dan uitrekenen, dan het verkregen antwoord opzoeken in de alternatieven, de andere alternatieven checken. De stap van het opstellen van een rekenmodel, moet iedere leerling in beginsel kunnen maken, natuurlijk.


8. Eva’s vis

Keurige vierkeuzevraag schattend rekenen. Goed lezen, etcetera.

Maar dan het toegevoegde plaatje: dat bevat geen informatie die nodig of nuttig is voor de som. De toetsslimme leerling signaleert dat snel, en laat zich er niet verder door afleiden. Dit toegevoegde plaatje is, in de context van een eerder toegevoegd plaatje waarin essentiële informatie bleek te staan, verwarrend. Mijns inziens is dit een ernstige ontwerpfout. Dezelfde ontwerpfout in de opgaven 9 en 10.


9. en 10. Opa’s puzzle & Chantal’ kersen

Keurige vierkeuzevragen rekenen.

Behalve het onnodig toegevoegde plaatje.


11. IJsberen Ik was toch wel even verbaasd: studievaardigheden als onderwerp in de Eindtoets! Een omkering van middel en doel? Het is even wennen, maar ik heb dus geen idee wat het precies is dat in een Eindtoets onder het kopje 'studievaardigheden' getoetst wordt. Hoe zijn leerlingen hierop voorbereid?

Een vraag die veel leestijd vergt. Verstandig omgaan met tijd (nr 1. M&P).

Ineens een afwijkende vorm van de keuzevraag: vijf alternatieven, in plaats van vier. Dat is geen issue voor toetsslimheid. Je vraagt je alleen af, wanneer er bereidheid bij het Cito blijkt om van de vierkeuze-dwang af te wijken, waarom niet vaker is gekozen voor driekeuze- en tweekeuzevragen. Dat zou strakkere vragen hebben opgeleverd, dus minder onnodige talige belemmeringen.

Dan zien we bij de alternatieven de afschuwelijke vorm van verschillende combinaties binnen alternatieven. De toetsslimme leerling is er op voorbereid, geeft eerst het antwoord zonder op de alternatieven te letten (nr 3. M&P), en gaat vervolgens na of het antwoord in de alternatieven staat, loopt ook de andere alternatieven na (nr 4. M&P). De toetsslimme leerling heeft hier bepaald een voorsprong: anderen kunnen makkelijker in de war raken met de nummers en de namen. Maar het is wel een ontwerpfout. De eindtoets hoort niet te toetsen op verschillen in koelbloedgheid of administratieve nauwkeurigheid van leerlingen.


12. Karikatuur Ik beschouw dit dan maar als een taalvraag.

Het is niet mogelijk op de vraag eerst zelf het antwoord te geven, ongezien de alternatieven.

De vraag geeft zelf als het ware de opdracht om alle alternatieven 'door te bladeren,' dus advies 4 van M&P gaat iedereen wel opvolgen.

Het is een kwestie van goed lezen, en controleren of 'karikatuur' inderdaad tussen de beide woorden in het gekozen alternatief ligt.

De toetsslimmere leerling is bij deze vraag niet in het voordeel.

Dat de stam van de vraag geen volledige vraag is, is toch minder, omdat de leerling nu heen en weer moet kijken tussen de stam van de vraag, en de alternatieven. [De algemeen aanvaarde ontwerpaanbeveling is dat de stam van de vraag op zich een volledige vraag is] Het kan waarschijnlijk anders. Als ja-neevraag: Staat het woord karikatuur tussen 'kariboe' en 'karig'?         ja / nee. Neem een extra ja-neevraag op, daar is nu immers ruimte voor (in tijd).



[de laatste vragen: die komen niet meer. De analyse tot dusver is duidelijk genoeg.]

Concluderend.

Een dozijn vragen uit een voorbeeldtoets voor ouders is natuurlijk maar een heel kleine steekproef. En de analyse is maar een schrijftafel-analyse. Toch komt er m.i. een duidelijk resultaat uit:

   1. toetsslimheid kan een kleine voorsprong geven
   2. het zijn vooral kwaliteitsgebreken in de vraagstelling die dat mogelijk maken
   3. de benodigde toetsslimheid is te oefenen
   4. op punten als 'goed lezen' is het te verdedigen dat het basisonderwijs daar aandacht aan besteedt
   5. maar andere aspecten van toetsslimheid hebben louter met de toetsvorm te maken, en dat mag eigenlijk bij de Eindtoets geen rol spelen.

Zelfs bij het kleine aantal bestudeerde vragen komen deze resultaten er sterk uit. De kleine omvang van de steekproef speelt geen rol.

Het is een schijftafelanalyse. Het zou dus kunnen bljken dat 11-jarigen die de opgaven al hardop denkend maken, iets anders laten zien. Als dergelijk onderzoek bestaat, zou ik daar graag kennis van nemen.

Toetslimheid ligt dicht bij intelligentie. De beter presterende leerlingen zullen ook de toetsslimmere zijn, en tegelijk die toetsslimheid minder nodig hebben. Maar de kwestie van voorbereidbaarheid van de Eindtoets is juist voor de andere leerlingen van mogelijk belang: zij zouden met een toetsslimme voorbereiding iets kunnen compenseren voor hun mindere kennis.

Sternberg en Wagner verwachten overigens dat met goed en gericht onderwijs ook intellectuele vaardigheden aanzienlijk zijn te verbeteren.

Op toetsslimheid analyseren van toetsvragen is een vruchtbare techniek.

http://www.cito.nl/po/lovs/eb/bestanden/Cito_EB08_EindtoetsOudersEngels.pdf http://beteronderwijsnederland.nl/node/6446

24 april 2012 \ contact ben apenstaartje benwilbrink.nl

Valid HTML 4.01!   http://www.benwilbrink.nl/projecten/toetsslimheid.htm