Zijn de toetsvragen van het Cito kwalitatief op orde?
Werkdocument
Ben Wilbrink
Bij de titel: Natuurlijk doet het Cito er van alles aan om ervoor te zorgen dat de toetsvragen deugdelijk zijn. Dat neemt niet weg dat het mogelijk is dat er belangrijke kwaliteitsaspecten kunnen zijn die niet alle aandacht hebben gekregen die ze verdienen. Dan gaat het niet om incidentele problemen bij een enkel item, maar om systemische problemen die bij iedere nieuwe toets weer terug kunnen komen.
direct naar inhoudsopgave
direct naar dagelijks bijgewerkte lijst eventuele aandachtspunten
In het werkdocument al uitgewerkte onderwerpen
eventueel nog uit te werken:
- 18 maart: H. Blok & H. Wesdorp (1979). De schooltoets na twaalf jaar. Een evaluatie van de op de leerling gerichte functies. Deel I selectie voor het V.O., advisering aan de ouders en opsporing van reserve aan talent. Deel II: analyse van de stand van het onderwijs, concretisering van doelstellingen en beïnvloeding van het lager onderwijs. Pedagogische Studiën, 56, 335-347, 388-396. Hebben de auteurs aandacht voor de inhoudelijke kwalieiten van de toetsvragen? Wesdorp had belang bij het Cito, was in 1977 verontwaardigd over mijn stelling dat keuzevragen niet objectiever zijn dan open vragen (Onderwijsresearchdagen ORD).
- “De CITO Eindtoets Basisonderwijs bestaat 12 jaar. In 1966 werd de toets (in Amsterdam [De Amsterdamse Schooltoets, b.w.]) geïntroduceerd; de constructeurs kenden 6 functies aan de toets toe. Deze waren a) Selectie voor het voortgezet onderwijs; b) Het opsporen van reserve aan intellect; d) Analyse van de stand van het onderwijs; e) Concretisering van doelstellingen van het onderwijs en f) Beïnvloeding van het lager onderwijs.”
- In de literatuurlijst vooral interne rapporten van het R.I.T.P. (Research Instituut voor Toegepaste Psychologie, later samengenoegd met het Kohnstamm Insituut tot het SCO, later SCO-Kohnstamm Instituut, heden weer Kohnstamm Instituut) en artikelen uit Het Schoolblad. Ik verwacht daarom dat Blok en Wesdorp een nuttig overzicht geven van deze wat lastig of helemaal niet meer toegakelijke literatuur (ook een doctoraalscriptie van: K. van Putten en K. Rijnbeek, Leiden)
- o te zien geen enkele aandacht voor inhoudelijke kwaliteit van toetsvragen, wel voor opvattingen etc. over de wenslijkheid van subtoetsen voor bijvoorbeeld spelling, en een een mysterieuze opmerking als de volgende (blz. 395): “Maar evenzeer kunnen bepalde positieve invloeden worden verwacht; met name is het niet uitgesloten dat de aandacht van de toets voor bepaalde ‘moderne’ vaardigheden in de Reken- en Algemene Kennis-toets het onderwijs heeft ‘bevrijd’ van ballast en suggesties voor zinvoller invulling heeft gedaan.”
- 18 maart: Ben Wilbrink (1977). Het verborgen vooroordeel tegen andere dan meerkeuze vraagvormen. In Stichting Onderwijsresearch: Congresboek Onderwijs Research Dagen (p. 219-222). html Ik stelde destijds aan de orde dat keuzevragen even subjectief zijn als open vragen. Dat was tegen het zere dogmatische been van het Cito, maar maakte daar de geesten wel rijp voor de acceptatie van open vragen. Dat laatste was noodzakelijk wilde het Cito de eindexamens VO behoorlijk kunnen gaan verzorgen. Verwante dogmatiek is dat een goede keuzevraag een vierkeuzevraag is. Zie daarover hoofdstuk 2 van mijn Toetsvragen ontwerpen">html
- 15 febr: http://www.rekencentrale.nl/Recent/Nieuw%20Cito%20leerlingvolgsysteem.pdf
- 12 febr: Henry Markovits (1986). The curious effect of using drawings in conditional reasoning problems. Educational Studies in Mathematics, 17, 81-87. abstract Een belangrijke kwestie bij het ontwerpen van toetsvragen is wat de rol van illustraties bij vragen kan zijn, of zelfs wat het effect is van verbale presentatie versus picturale presentatie van opgaven. Het is een complex probleem, want er spelen tal van mogelijke invloeden en samenhangen. Ik noem de denkstijlen van bijvoorbeeld Robert Sternberg. Afijn, hoe dat ook zij, dit artikel van Markovits stipt er iets van aan.
- “ABSTRACT. College level students were given two paper and pencil conditional reasoning tests in varying order. The first test consisted of three problems presented entirely verbally. The second test was identical to the first except that two of the three problems made use of line drawings as concrete referents. Performance on the problems with drawings was significantly worse than for purely verbal presentation. In addition, interaction effects between the two forms of presentation were observed over the one-week interval between the two tests.”
- 9 febr: M. Hickendorff & J. Janssen (2009). De invloed van contexten in rekenopgaven op de prestaties van basisschoolleerlingen. Panama-Post, 28, 3-11. pdf
- De eerste auteur: Universiteit Leiden; de tweede auteur: Cito. Een mooie samenwerking. Onderzoek zoals dit zou er in veelvoud moeten zijn, dat levert een goed zich op eventuele kwaliteitsproblemen in gangbare toetsen, dus ook op mogelijkheden om beter te ontwerpen en scherper op kwaliteit te controleren.
- “De resultaten lieten ten eerste zien dat ‘toepassings’rekenvaardigheid, zoals gemeten bij contextopgaven en ‘kale’ rekenvaardigheid, zoals gemeten bij getalopgaven twee afzonderlijke, maar samenhangende constructen lijken te zijn.”
- “Ten tweede bleek het taalniveau van de leerling van invloed: leerlingen die thuis geen Nederlands spreken hadden een prestatieachterstand ten opzichte van leerlingen die thuis wel Nederlands spreken, wat deels samenhangt met het feit dat het ook slechtere lezers zijn. Voor de groep als geheel is de prestatieachterstand van leerlingen die thuis geen Nederlands spreken groter bij de contextopgaven dan bij de kale opgaven. Splitsen we de resultaten uit naar leesniveau, dan blijkt dat binnen elk leesniveau deze achterstand nog steeds bestaat inzake de contextopgaven, maar dat deze is verdwenen of zelfs omgezet naar een voorsprong als het om kale opgaven gaat.”
-
Schitterend. Dit is nu een voorbeeld van toetsend empirisch onderzoek.
-
Goed gedaan. De interactie tussen taalbeheersing en rekenprestaties (figuur 9) is moeizaam gerapporteerd, maar het is ook een lastig onderwerp. Ik vind het een tikje misleidend, omdat de twee groepen leerlingen zich anders verdelen over die schaal van taalvaardigheid. Ik heb niet meteen een alternatief voorhanden. Mijn probleem is misschien dat eenzelfde score voor taalvaardigheid niet dezelfde betekenis heeft binnen de ene, respectievelijk de andree groep (zie ook mijn opmerkingen over taalbeheersing, hierbeneden). Ik had het misschien liever zonder die figuur 9 gezien.
-
Wat ik mis in de slotbeschouwing: er zijn aan deze resultaten ook consequenties te verbinden m.b.t. de rekeninstructie: als die vooral in de vorm van contextopgaven gebeurt, dan zijn de leerlingen met Nederlands als tweede taal voortdurend in het nadeel. Het is een beetje een dilemma, natuurlijk, want ze moeten ook leren omgaan met contextopgaven.
-
Wat ik mis bij de taalbeheersing is aandacht voor de vraag wat taalvaardigheid eigenlijk is. De onderzoekers hebben het nadrukkelijk over de taalvaardigheid van het Nederlands. Mijn onderzoekersvermoeden is dat de taalvaardigheid van tweetalige kinderen juist groter is. Een tweede onderzoeksvermoeden is dat die grotere taalvaardigheid deze leerlingen juist ook extra problemen kan bezorgen bij het begrijpen van contextopgaven.
-
Ik wacht met spanning op vervolgonderzoeken.
- Serendipity. Het eerste artikel dat ik na het lezen van Hickendorff & Janssen onder ogen kreeg: M. A. (Ken) Clements (1980). Analyzing children’s errors on written mathematical tasks. Educational Studies in Mathematics, 11, 1-21. abstract Hierin ook directe vergelijking tussen woordproblemen en hun kale rekenversies. Een cake is in vier delen gesneden, en Wim neemt er een van. Welk deel (fraction) van de cake is over (left)? De kale versie: Schrijf het antwoord op 1 − ¼ = ______ (Antwoord). Het woordprobleem wordt redelijk beantwoord, de kale som beroerd. Uit interviews met kinderen blijkt dat het beeld dat het woordprobleem oproept, enorm helpt, en dat sommige leerlingen bij de kale som geblokkeerd zijn op hun idee dat ze geen breuken aankunnen. Waarom vermeld ik dit onderzoek hier? Niet omdat het de resultaten van Hickendorff & Janssen zou weerspreken, dat doet het niet. Maar dit artikel zou bij OW&OC de indruk kunnen hebben gewekt dat er niets aan de hand is met contextopgaven, althans niet in de zin zoals door Hickendorff & Janssen onderzocht.
- Ik krijg een reactie dat het door Clements gesignaleerde probleem zich waarschijnlijk ook voordoet bij meerdere opgaven uit het rekendeel van de Cito Eindtoets Basisonderwijs. Dat brengt mij op het volgende:
-
Interessant. Laten we dit fenomeen goed vasthouden.
-
Woordproblemen (vooral die met een afbeelding erbij) kunnen dus echt veel makkelijker zijn dan de bijpassende kale som.
-
De normale situatie is dat woordproblemen moeilijker zijn dan hun kale som, omdat de leerling eerst het probleem moet vertalen naar een rekenmodel, en dat dan nog uitrekenen.
-
Het is dus altijd een empirische vraag of het woordprobleem al dan niet moeilijker blijkt dan de bijpassende kale som. Het Cito zou daar standaard op moeten onderzoeken, op dezelfde manier als zij DIF-analyses standaard uitvoeren om na te gaan of vragen mogelijk partijdig zijn. Niet omdat woordproblemen die makkelijker zijn dan hun kale som ipso facto kwalitatief ondeugdelijk zouden zijn, dat lijkt me niet het geval, maar omdat je als ontwerper en verantwoordelijke voor zo’n belangrijke toets moet weten hoe je items in feite functioneren.
-
Het kan voor de ene leerling natuurlijk anders liggen dan voor de andere, dat is met alles zo, het gaat er dus om hoe belangrijke (deel)groepen leerlingen met de opgaven omgaan.
-
Een variant is nog het volgende: de leerling die de informatie in de antwoordalternatieven benut om tot het waarschijnlijk juiste antwoord te komen, zou op de kale som met open antwoord ook wel eens een heel stuk slechter kunnen scoren. Of de keuzevraag dan een redactiesom is, of met een afbeelding is verrijkt, is dan mogelijk van ondergeschikt belang.
Dit is een werkdocument ter voorbereiding van een publicatie. Wil je ideeën hieruit gebruiken, neem dan contact met mij op.
Inhoud
intro
websites
sleutelpublicaties
literatuur
schets voor een opzet
De toetsen van het Cito zijn alomtegenwoordig in het onderwijs, van leerlingvolgsysteem in het basisonderwijs, tot straks rekentoetsen bij de afsluitende examens van het voortgezet onderwijs.
Het Cito is natuurlijk niet de enige speler in het publieke en private examenveld, maar in dit werkdocument staat ‘Cito’ ook voor het geheel van examinerende instanties.
Veel van deze instituten zijn lid van de Vereniging van Examens. De Vereniging geeft een goed verzorgd kwartaaltijdschrift uit: Examens. Tijdschrift voor de Toetspraktijk.
Mogelijke kwaliteitsproblemen op item- en toets-niveau zijn ten minst de volgende:
-
Het feit sommige toetsen UITSLUITEND meerkeuzevragen bevatten.
Dat is naar grote deelgroepen leerlingen partijdig, op een manier zoals bij het Cito nog nooit naar partijdigheid is gekeken.
Ingang tot wetenschappelijk onderzoek op dit punt: Robert Sternberg.
- Sommige typen vragen zijn zonder meer intelligentietest-vragen.
Ruimtelijk inzicht hoort tot deze categorie, in veel rekentoetsen tegenwoordig met enkele vragen aanwezig.
- De kwaliteit van teveel vragen laat te wensen over: vragen moeten volstrekt ondubbelzinnig zijn, etcetera.
- Het mag niet zo zijn dat toetstraining een voordeel oplevert op examens of de Eindtoets Basisonderwijs.
- Niet alle contexten in rekenvragen zijn even handig gekozen.
Het gaat om onderbouwing dat de betreffende vragen valide manieren opleveren op rekenvaardigheid te toetsen.
- Is het taal- en rekenniveau van respectievelijk de taalvragen en de rekenvragen adequaat, en niet te laag?
Ook gezien de nieuwe referentieniveaus (commissie-Meijerink) (die op zichzelf ook nog tal van vragen oproepen).
Het gevraagde niveau is niet hetzelfde de moeilijkheid van vragen.
- Er zijn rekenvragen die als woordprobleem met afbeelding erbij, makkelijker zijn dan de bijbehorende kale rekenvraag is.
Deze vragen zijn wat validiteit betreft verdacht: wat gebeurt er eigenlijk bij de beantwoording van dergelijke vragen, gaat het hier niet veeleer om verschillen in intelligentie? Hoe vaak komt dit voor? Is het probleem bekend bij het Cito?
- Het talige karakter van veel vragen, ook rekenvragen, levert mogelijk grotere problemen op, wat de validiteit van de vragen betreft, de eerlijkheid/partijdigheid, dan wat blijkt uit onderzoek van het Cito zelf.
- De woordproblemen in rekentoetsen toetsen teveel tegelijk: het opstellen van een rekenmodel, en het uitrekenen van het antwoord.
Dat moet vaker uit elkaar worden gehaald, en op zijn minst vergezeld gaan van de opdracht om op kladpapier de uitwerking aan te geven.
- In sommige rekentoetsen ontbreken kale rekenopgaven vrijwel geheel, daar is in ieder geval de balans volstrekt zoek tussen het rekenen als zodanig, en het aanpakken van woordproblemen. In leerlingvolgsystemen is zo’n onbalans buitengewoon ernstig, omdat individuele en groepstekorten in basale rekenvaardigheden dan moelijk zijn te signaleren. [Het leerlingvolgsysteem voor het basisonderwijs is bijvoorbeeld op deze manier eenzijdig. Te beginnen met 2012 en groep drie komt het Cito met een nieuwe editie waarin kale rekensommen ook weer zijn opgenomen]
- Ik vermoed dat de wijze van vragen naar inzicht en vaardigheid (taal, rekenen) op meer manieren eenzijdig is dan alleen de meerkeuzevraagvorm.
Kunnen we daar inzicht in krijgen? (bijvoorbeeld de verhouding woordproblemen en kale rekensommen; opgaven die analytisch van karakter zijn, versus opgaven die practische en creatieve vaardigheden vragen; Sternberg)
Hoe ziet het kwaliteitscircuit voor toetsen (van het Cito, en andere) er uit? En op welke manier doen deze instituties hun werk, en gaan zij om met gesignaleerde gebreken?
-
De minister is verantwoordelijk, en betaalt. De minister zal enige garantie van kwaliteit willen hebben.
- De Inspectie ziet toe op de kwaliteit van van alles en nog wat, dus ook hierop.
- De Cotan keurt de toetsen van het Cito.
Cotan: Commissie Testaangelegenheden van het Nederlands Instituut van Psychologen.
De Cotan is velen minder bekend. Ik geef een voorbeeld van het belang ervan. Het ministerie van OCW stelt het kwaliteitsoordeel van de Cotan als voorwaarde voor de toelating van tests die aan het eind van het basisonderwijs worden gebruikt om leerlingen in speciale trajecten te plaatsen, zoals leerweg-ondersteund onderwijs.
- De ouders van leerlingen hebben recht op kwalitatief behoorlijke toetsen, en kunnen juridische procedures aanspannen wanneer die kwaliteit om welke reden dan ook ontbreekt, ten nadelen van hun kroost.
Recht van beroep. Beroerd geregeld voor basisonderwijs en pabo's, maar het model ervoor is natuurlijk bekend: de Colleges van Beroep voor de Examens, in het hoger onderwijs.
- Het ontvangende voortgezet onderwijs zal iets moeten doen met eventuele gebreken en eenzijdigheden van de Cito Eindtoets Bassionderwijs, en heeft dan een moeilijker verhaal naar ouders toe.
- Onderwijsonderzoekers doen er goed aan zich te realiseren dat de scores (op items van) de reken- en taaltoetsen van het Cito niet altijd eenduidige betekenis hebben (het validiteitsprobleem).
- Het onderwijsveld is direct bij deze problematiek betrokken, want zij moeten de leerlingen voorbereiden op de reken- en taaltoetsen, zij moeten behoorlijk reken- en taalonderwijs geven. En wat is dan behoorlijk onderwijs: wordt dat bepaald door het Cito?
websites
De site van het Cito, met o.a. publicaties, PPON, toetsspecials.
De site van de Commissie Testaangelegenheden Nederland (COTAN).
De site van Ben Wilbrink bevat veel materiaal over het ontwerpen van toetsvragen, examens, selectie, overgangen in het onderwijs en van onderwijs naar arbeidsmarkt.
sleutelpublicaties
D. J. Bos (1973). De Amsterdamse schooltoets en de differentiatie van brugklasleerlingen. Pedagogische Studiën, 50, 62-69.
Jonathan Wai, David Lubinski & Camilla P. Benbow (2009). Spatial ability for STEM domains: Aligning over 50 years of cumulative psychological knowledge solidifies its importance. Journal of Educational Psychology, 101, 817-835.
pdf
- STEM = Science, Technology, Engineering, Mathematics.
- Ruimtelijk inzicht wordt getoetst door vragen zoals er enkele typisch in de Eindtoets Basisonderwijs van het Cito voorkomen, die eruitzien alsof ze ruimtelijk inzicht toetsen, en die dat dus ook toetsen (zie de afbeelding in dit artikel).
AERA, APA & NCME (1999).The Standards for Educational and Psychological Testing. zie hier.
APA. Joint Committee on Testing Practices (2000). Rights & responsibilities of test takers: Guidelines and expectations. Washington, DC. American Psychological Association. html
K. Bügel en P. F. Sanders (1998). Richtlijnen voor de ontwikkeling van onpartijdige toetsen. Arnhem: Cito. pdf
- Biedt wat de titel belooft, met voorbeelden van toetsvragen die partijdig kunnen zijn, en waarom dat zo is.
M. Job Cohen (1981). Studierechten in het wetenschappelijk onderwijs Proefschrift Rijksuniversiteit Leiden. Zwolle: Tjeenk Willink.
L. M. C. M. Cremers-van Wees, J. W. M. Knuver, H. J. Vos, & W. J. M. Van der Linden (1998). Model gedragscode toetsen, beoordelen en beslissen in het voortgezet onderwijs. Enschede: OCTO. isbn 9036510899.
-
L. M. C. M. Cremers-van Wees, J. W. M. Knuver, H. J. Vos, & W. J. M. Van der Linden (1998). Toetsen, beoordelen en beslissen in het voortgezet onderwijs. Ontwikkeling van een gedragscode voor leraren. Enschede: OCTO.isbn 9036510902.
-
L. M. C. M. Cremers-van Wees, J. W. M. Knuver, H. J. Vos, & W. J. M. Van der Linden (1998). Leraren positief over invoering gedragscode voor cijfers geven. Didactief & School, 4, 4-8.
-
De opdracht voor bovenstaand door SVO bekostigd project is destijds mede door mij vormgegeven, ik werkte gedetacheerd bij SVO. Ik heb het project niet verder kunnen begeleiden (SVO werd opgeheven), maar heb wel een reeks gevallen bijgedragen voor de casuïstiek, en deelgenomen aan de expert-meeting.
-
Binnen de NVE (Nederlandse Vereniging voor Examens) wordt (anno 2005) naar verdere ontwikkeling van het onderwerp gekeken (contact: George Moerkerke).
Educational Testing Service (2008). ETS International principles for fairness review assessments. pdf
- "Using the International Principles as a guideline, supplemented by regionally appropriate content and examples, test developers can design and deliver assessments that are technically sound, fair, valid, and useful for all intended test takers.”
- Merk op dat ETS, dat gewoon een enorm Amerikaans bedrijf is, hier een vreemde draai maakt door ‘'technisch eerlijke en valide’ producten te beloven. Ongetwijfeld is dit een juridische vondst, inhoudelijk is het natuurlijk onzin: het zal de techniek een rotzorg zijn. ETS is te prijzen voor de inspanning, maar het gaat hier wel om een slager die alleen zelf zijn waren keurt. Deze richtlijnen voorzien er niet in dat de doelgroep — de testees — een stem krijgen, terwijl deze voice juist wezenlijk is voor eerlijke procedures.
ETS Standards (Educational Testing Service)
-
(2002) ETS Standards for quality and fairness. pdf
-
(2003) ETS Fairness review guidelines pdf
-
(2005) ETS Guidelines for constructed-response and other performance pdf
-
(2007) ETS International principles for fairness review of assessments pdf
Adriaan D. de Groot (1966). Vijven en zessen. Groningen: Wolters.
A. D. de Groot (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie, 25, 360-376. html
Wim K. B. Hofstee (2007). Recht op afschrift van het dossier. De Psycholoog, 618-619.
Jason Millman & Walter Pauk (1969). How to take tests. McGraw-Hill Paperbacks.
- Een bijzonder boekje. Millman was in 1969 editor van Journal of Educational Measurement.Het boekje richt zich tot testees, maar lees het vooral ook als over hun hoofd heen gericht tot ontwerpers van toetsvragen. Om het karakter ervan te proeven, zie pdf
- John P. Dolly & Kathy S. Williams (1986). Using test-taking strategies to maximize multiple-choice test scores. Educational and Psychological Measurement, 46, 619-625 abstract
- Millman & Jason is een voorloper van wat later een hele industrie zou worden, zie bijv. The Princeton Test Review.
NIP (1986). Richtlijnen voor ontwikkeling en gebruik van psychologische tests en studietoetsen. Amsterdam: Nederlands Instituut voor Psychologie. Tweede editie.
L. S. Shulman (1986). Those who understand: Knowledge growth in teaching. Educational Researcher, 15 #2, 4-14. pdf
Ben Wilbrink (1983/2011). Toetsvragen ontwerpen: Hoofdstuk 8. Kwaliteit van toetsvragen. html
- Richtlijnen, beroep, kwaliteits-check, aandachtspunten / casuïstiek
literatuur
W. James Popham (2001). The truth about testing. An educator's call to action. Association for Supervision and Curriculum Development ASCD. isbn 0871205238 questia
Peter Tellegen (2000). Verantwoord testgebruik bij allochtonen. Een reactie. De Psycholoog, 231-235. doc of html
- "Door Evers en Te Nijenhuis is gesteld dat traditionele intelligentietests goed bruikbaar zijn voor allochtonen. In deze reactie wordt beargumenteerd dat deze conclusie niet houdbaar is en discriminerend ten opzichte van allochtonen. Onze kritiek sluit aan bij de problemen die Van den Berg en Van Leest schetsen bij het testen van allochtonen, hun aanbevelingen lijken echter minder geslaagd.
Met het ongenuanceerde standpunt van Evers en Te Nijenhuis dreigen de inspanningen van het NIP voor verantwoord testgebruik bij allochtonen teniet te worden gedaan."
Frank Kok (1988). Vraagpartijdigheid. Methodologische verkenningen. Proefschrift UvA. SCO-publicatie 88.
Richard J. Rovinelli and Ronald K. Hambleton (1977). On the use of content specialists in the assessment of criterion-referenced test item validity. Tijdschrift voor Onderwijsresearch, 2, 49-60.
- abstract pdf of Laboratory of Psychometric and Evaluation Resaerchreport no. 24 (the same text).
Lieven Verschaffel, Brian Greer and Erik de Corte (2000). Making sense of word problems. Lisse: Swets & Zeitlinger.
Mansour G. A. Hussein (1987). Private tutoring: A hidden educational problem. Educational Studies in Mathematics, 18, 91-96. abstract
- Coaching. Ofwel: training op de Eindtoets Basisonderwijs, althans dat soort toetsen. Een bericht uit Kuwait, waar natuurlijk veel geld rondzweft om dit type persoonlijk onderwijs te kunnen betalen.
Maarten van Gils (1977). De onbetrouwbaarheid van selektieve tekstbegriptoetsen. Pedagogiche Studiën, 54, 52-61.
- Dit is een artikel van een buitenstaander die zich vertilt aan de psychometrie. De inhoud lijkt mij echt irrelevant. Het artikel is wel interessant omdat het een helder voorbeeld kan zijn van hoe buitenstaanders zich kunnen vertillen aan de methodologie van die voor hen vreemde discipline. Zoals ook Freudenthal doet. De keerzijde daarvan is: de toetserij van het Cito raakt alle burgers, dat zijn vooral buitenstaanders, dus het Cito heeft wel een probleem om te legitimeren wat zij doet. Doet Djien Thio dat goed, in zijn reaktie?
- K. D. Thio (1977). CITO-commentaar op Van Gils’: ‘De onbetrouwbaarheid van selectieve tekstbegriptoetsen’. Pedagogiche Studiën, 54, 62-67.
H. Uiterwijk (1994). De bruikbaarheid van de Eindtoets Basisonderwijs voor allochtone leerlingen. Proefschrift. Arnhem: Cito. samenvatting pdf
- Wat mij trof, bij snel doornemen, is hoe ontzettend moeilijk het is om zinvolle empirische data te krijgen. Eigenlijk is dat onbegonnen werk, maar dat zal ook wel de ervaring van Uiterwijk zijn geweest. Er gebeurt zo ontzettend veel, de leerlingen zwermen uit, met twee adviezen op zak, waar ouders nog weer eens overheen gaan, en dan komen die koters in heel andere onderwijssituaties terecht dan ze gewend waren. Dat levert geen keurig nette gecontroleerde gegevens op waarmee je wat zou kunnen gaan rekenen aan bias-modellen.
- Henny Uiterwijk heeft bij het Cito interessante studies gedaan, in samenwerking met een vakgroep van de KUB, die zijn helaas (behalve de samenvatting van zijn proefschrif) niet op de site van het Cito beschikbaar
-
Uiterwijk, H., en Vallen, T. (1992). Een toets mag moeilijk zijn, maar niet onbedoeld moeilijk. De toetsesultaten van allochtone leerlingen en de 'itembias'. Tijdschrift voor Onderwijs en Opvoeding, 51, 7, 15-21.
-
Uiterwijk,J.H. Item- en testbias in de Eindtoets Basisonderwijs 1987. Arnhem: Cito; 1990. 111 blz. (Onderzoeksrapport basis- en speciaal onderwijs Nr.1).
-
H. Uiterwijk (1994). De bruikbaarheid van de Eindtoets Basisonderwijs voor allochtone leerlingen. Proefschrift. Arnhem: Cito. samenvatting pdf
-
H. Uiterwijk en T. Vallen (1997). Onderzoek naar bias voor allochtone leerlingen in de Cito-Eindtoets Basisonderwijs. Pedagogische Studiën, 74, 21-32.
-
H. Uiterwijk and T. Vallen (2005). Linguistic sources of item bias for second generation immigrants in Dutch tests. Language Testing, 22, 211-234.
- hier bestaat een pdf van, wie deze graag toegestuurd wil hebben, stuur mij een mailtje
- Dit artikel adresseert het ontwerpen van toetsvragen. Wat is het dat een toetsvraag partijdig kan maken? Bestaat daar inzicht in, dan is het mogelijk er bij het ontwerpen rekening mee te houden.
-
H. Uiterwijk and T. Vallen (2003). Test bias and differential item functioning: A study on the suitability of the cito primary education final test for second generation immigrant students in The Netherlands. Studies in Educational Evaluation, 29, 129-143. [niet gezien, moet ik nog zien te veroveren.]
Richtlijnen - Standards
1999 Standards for Educational and Psychological Testing. site, table of contents, bibliografie
Wayne J. Camara (2007). Standards for Educational and Psychological Testing: Influence in Assessment Development and Use. The College Board: Unpublished Paper. pdf
K. Bügel en P. F. Sanders (1998). Richtlijnen voor de ontwikkeling van onpartijdige toetsen. Arnhem: Cito. pdf
- Biedt wat de titel belooft, met voorbeelden van toetsvragen die partijdig kunnen zijn, en waarom dat zo is.
Educational Testing Service (2004). ETS international principles for fairness review of assessments. Princeton, NJ: Author.
pdf
Richtlijn gebruik diagnostische instrumenten bij etnische minderheden (2005). Sectie Interculturalisatie NIP i.s.m. Landelijke Bureau ter Bestrijding van Rassendiscriminatie (LBR) Prijs: € 5,50
Toepasbaarheid van enkele psychologische tests bij personeelsbeoordeling bij etnische
minderheden (2005). Sectie Interculturalisatie NIP i.s.m. Landelijke Bureau ter Bestrijding van Rassendiscriminatie
(LBR) Prijs: € 5,50
Combinatiepakket: Richtlijn gebruik diagnostische instrumenten bij etnische minderheden (2005) en Toepasbaarheid van enkele psychologische tests… samen voor € 10,00. Bestellen via Art.1, tel. (010) 2010201, fax (010) 2010222 of via www.art1.nl
Cheryl L. Wild and Rohit Ramaswamy (Eds) (2008). Improving testing. Applying process tools and techniques to assure quality. Erlbaum. site
Paul E. Newton (2005): The public understanding of measurement inaccuracy, British Educational Research Journal, 31:4, 419-442
abstract
Hans Kuhlemeier, Melanie Steentjes en Frans Kleintjes (2003). De gelijkwaardigheid van open en meerkeuzevragen bij wiskunde. Effect van vraagtype en scoringswijze op gemeten vaardigheden, betrouwbaarheid, moeilijkheid en afnametijd. Arnhem: Cito. http://www.fi.uu.nl/wiskrant/bij_de_nummers/Bijlagen/ 23.2/rapport%20onderzoek%20vraagtypen%20bij%20wiskunde.pdf [gebroken link? 1-2009. Vraag mij de pdf, b.w.]
- “Wij kunnen niet uitsluiten dat de veronderstelde verschillen tussen open en meerkeuzevragen duidelijker waren opgetreden als wij bijvoorbeeld gekozen hadden voor eenvoudige rekenopgaven. Nader onderzoek zou hierover meer uitsluitsel kunnen geven.”
- Met lange literatuurlijst.
H. Kuhlemeier, F. Kleintjes & H. van den Bergh (2001). Effecten van toetsvorm en vraagtype op de moeilijkheid van de afsluitingstoetsen basisvorming. Een toepassing van multiniveau analyse met random kruisklassificatie. Pedagogische Studiën, 78, 197-211.
Michael E. Martinez (1999). Cognition and the question of test item format. Educational Psychologist, 34, 207-218 abstract
Randy Elliott Bennett and William C. Ward (Eds.) (1993). Construction versus choice in cognitive measurement. Issues in constructed response, performance testing, and portfolio assessment. Hillsdale, New Jersey: Lawrence Erlbaum. questia
J. Roeleveld (2002). De kwaliteit van het basisonderwijs: dalen de Citoscores? Pedagogische Studiën, 79, 389- . samenvatting
The effects of test translation on young English learners’ mathematics performance. Educational Researcher, 39, #8, 582-590. abstract
Glenn L. Rowley (1974). Which examinees are most favoured by the use of multiple choice tests? Journal of Educational Measurement, 11. abstract.
Thomas Haladyna, Susan Bobbit Nolen & Nancy S. Haas (1992). Raising Standardized Achievement Test Scores and the Origins of Test Score Pollution. Educational Researcher, 20, #5: 2 first paeg
http://www.benwilbrink.nl/projecten/cito_ontwerp_toetsvragen.htm