Zijn de toetsvragen van het Cito kwalitatief op orde?


Werkdocument

Ben Wilbrink

Bij de titel: Natuurlijk doet het Cito er van alles aan om ervoor te zorgen dat de toetsvragen deugdelijk zijn. Dat neemt niet weg dat het mogelijk is dat er belangrijke kwaliteitsaspecten kunnen zijn die niet alle aandacht hebben gekregen die ze verdienen. Dan gaat het niet om incidentele problemen bij een enkel item, maar om systemische problemen die bij iedere nieuwe toets weer terug kunnen komen.



direct naar inhoudsopgave


direct naar dagelijks bijgewerkte lijst eventuele aandachtspunten


In het werkdocument al uitgewerkte onderwerpen





eventueel nog uit te werken:




Dit is een werkdocument ter voorbereiding van een publicatie. Wil je ideeën hieruit gebruiken, neem dan contact met mij op.


Inhoud

intro

websites

sleutelpublicaties

literatuur







schets voor een opzet

De toetsen van het Cito zijn alomtegenwoordig in het onderwijs, van leerlingvolgsysteem in het basisonderwijs, tot straks rekentoetsen bij de afsluitende examens van het voortgezet onderwijs.

Het Cito is natuurlijk niet de enige speler in het publieke en private examenveld, maar in dit werkdocument staat ‘Cito’ ook voor het geheel van examinerende instanties.

Veel van deze instituten zijn lid van de Vereniging van Examens. De Vereniging geeft een goed verzorgd kwartaaltijdschrift uit: Examens. Tijdschrift voor de Toetspraktijk.


Mogelijke kwaliteitsproblemen op item- en toets-niveau zijn ten minst de volgende:


  1. Het feit sommige toetsen UITSLUITEND meerkeuzevragen bevatten.
    Dat is naar grote deelgroepen leerlingen partijdig, op een manier zoals bij het Cito nog nooit naar partijdigheid is gekeken. Ingang tot wetenschappelijk onderzoek op dit punt: Robert Sternberg.
  2. Sommige typen vragen zijn zonder meer intelligentietest-vragen.
    Ruimtelijk inzicht hoort tot deze categorie, in veel rekentoetsen tegenwoordig met enkele vragen aanwezig.
  3. De kwaliteit van teveel vragen laat te wensen over: vragen moeten volstrekt ondubbelzinnig zijn, etcetera.
  4. Het mag niet zo zijn dat toetstraining een voordeel oplevert op examens of de Eindtoets Basisonderwijs.
  5. Niet alle contexten in rekenvragen zijn even handig gekozen.
    Het gaat om onderbouwing dat de betreffende vragen valide manieren opleveren op rekenvaardigheid te toetsen.
  6. Is het taal- en rekenniveau van respectievelijk de taalvragen en de rekenvragen adequaat, en niet te laag?
    Ook gezien de nieuwe referentieniveaus (commissie-Meijerink) (die op zichzelf ook nog tal van vragen oproepen).
    Het gevraagde niveau is niet hetzelfde de moeilijkheid van vragen.
  7. Er zijn rekenvragen die als woordprobleem met afbeelding erbij, makkelijker zijn dan de bijbehorende kale rekenvraag is.
    Deze vragen zijn wat validiteit betreft verdacht: wat gebeurt er eigenlijk bij de beantwoording van dergelijke vragen, gaat het hier niet veeleer om verschillen in intelligentie? Hoe vaak komt dit voor? Is het probleem bekend bij het Cito?
  8. Het talige karakter van veel vragen, ook rekenvragen, levert mogelijk grotere problemen op, wat de validiteit van de vragen betreft, de eerlijkheid/partijdigheid, dan wat blijkt uit onderzoek van het Cito zelf.
  9. De woordproblemen in rekentoetsen toetsen teveel tegelijk: het opstellen van een rekenmodel, en het uitrekenen van het antwoord.
    Dat moet vaker uit elkaar worden gehaald, en op zijn minst vergezeld gaan van de opdracht om op kladpapier de uitwerking aan te geven.
  10. In sommige rekentoetsen ontbreken kale rekenopgaven vrijwel geheel, daar is in ieder geval de balans volstrekt zoek tussen het rekenen als zodanig, en het aanpakken van woordproblemen. In leerlingvolgsystemen is zo’n onbalans buitengewoon ernstig, omdat individuele en groepstekorten in basale rekenvaardigheden dan moelijk zijn te signaleren. [Het leerlingvolgsysteem voor het basisonderwijs is bijvoorbeeld op deze manier eenzijdig. Te beginnen met 2012 en groep drie komt het Cito met een nieuwe editie waarin kale rekensommen ook weer zijn opgenomen]
  11. Ik vermoed dat de wijze van vragen naar inzicht en vaardigheid (taal, rekenen) op meer manieren eenzijdig is dan alleen de meerkeuzevraagvorm.
    Kunnen we daar inzicht in krijgen? (bijvoorbeeld de verhouding woordproblemen en kale rekensommen; opgaven die analytisch van karakter zijn, versus opgaven die practische en creatieve vaardigheden vragen; Sternberg)


Hoe ziet het kwaliteitscircuit voor toetsen (van het Cito, en andere) er uit? En op welke manier doen deze instituties hun werk, en gaan zij om met gesignaleerde gebreken?


  1. De minister is verantwoordelijk, en betaalt. De minister zal enige garantie van kwaliteit willen hebben.
  2. De Inspectie ziet toe op de kwaliteit van van alles en nog wat, dus ook hierop.
  3. De Cotan keurt de toetsen van het Cito.
    Cotan: Commissie Testaangelegenheden van het Nederlands Instituut van Psychologen. De Cotan is velen minder bekend. Ik geef een voorbeeld van het belang ervan. Het ministerie van OCW stelt het kwaliteitsoordeel van de Cotan als voorwaarde voor de toelating van tests die aan het eind van het basisonderwijs worden gebruikt om leerlingen in speciale trajecten te plaatsen, zoals leerweg-ondersteund onderwijs.
  4. De ouders van leerlingen hebben recht op kwalitatief behoorlijke toetsen, en kunnen juridische procedures aanspannen wanneer die kwaliteit om welke reden dan ook ontbreekt, ten nadelen van hun kroost.
    Recht van beroep. Beroerd geregeld voor basisonderwijs en pabo's, maar het model ervoor is natuurlijk bekend: de Colleges van Beroep voor de Examens, in het hoger onderwijs.
  5. Het ontvangende voortgezet onderwijs zal iets moeten doen met eventuele gebreken en eenzijdigheden van de Cito Eindtoets Bassionderwijs, en heeft dan een moeilijker verhaal naar ouders toe.
  6. Onderwijsonderzoekers doen er goed aan zich te realiseren dat de scores (op items van) de reken- en taaltoetsen van het Cito niet altijd eenduidige betekenis hebben (het validiteitsprobleem).
  7. Het onderwijsveld is direct bij deze problematiek betrokken, want zij moeten de leerlingen voorbereiden op de reken- en taaltoetsen, zij moeten behoorlijk reken- en taalonderwijs geven. En wat is dan behoorlijk onderwijs: wordt dat bepaald door het Cito?







websites

De site van het Cito, met o.a. publicaties, PPON, toetsspecials.


De site van de Commissie Testaangelegenheden Nederland (COTAN).


De site van Ben Wilbrink bevat veel materiaal over het ontwerpen van toetsvragen, examens, selectie, overgangen in het onderwijs en van onderwijs naar arbeidsmarkt.




sleutelpublicaties

D. J. Bos (1973). De Amsterdamse schooltoets en de differentiatie van brugklasleerlingen. Pedagogische Studiën, 50, 62-69.

Jonathan Wai, David Lubinski & Camilla P. Benbow (2009). Spatial ability for STEM domains: Aligning over 50 years of cumulative psychological knowledge solidifies its importance. Journal of Educational Psychology, 101, 817-835. pdf

AERA, APA & NCME (1999).The Standards for Educational and Psychological Testing. zie hier.

APA. Joint Committee on Testing Practices (2000). Rights & responsibilities of test takers: Guidelines and expectations. Washington, DC. American Psychological Association. html

K. Bügel en P. F. Sanders (1998). Richtlijnen voor de ontwikkeling van onpartijdige toetsen. Arnhem: Cito. pdf

M. Job Cohen (1981). Studierechten in het wetenschappelijk onderwijs Proefschrift Rijksuniversiteit Leiden. Zwolle: Tjeenk Willink.

L. M. C. M. Cremers-van Wees, J. W. M. Knuver, H. J. Vos, & W. J. M. Van der Linden (1998). Model gedragscode toetsen, beoordelen en beslissen in het voortgezet onderwijs. Enschede: OCTO. isbn 9036510899.

Educational Testing Service (2008). ETS International principles for fairness review assessments. pdf

ETS Standards (Educational Testing Service)

Adriaan D. de Groot (1966). Vijven en zessen. Groningen: Wolters.

A. D. de Groot (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie, 25, 360-376. html

Wim K. B. Hofstee (2007). Recht op afschrift van het dossier. De Psycholoog, 618-619.

Jason Millman & Walter Pauk (1969). How to take tests. McGraw-Hill Paperbacks.

NIP (1986). Richtlijnen voor ontwikkeling en gebruik van psychologische tests en studietoetsen. Amsterdam: Nederlands Instituut voor Psychologie. Tweede editie.

L. S. Shulman (1986). Those who understand: Knowledge growth in teaching. Educational Researcher, 15 #2, 4-14. pdf

Ben Wilbrink (1983/2011). Toetsvragen ontwerpen: Hoofdstuk 8. Kwaliteit van toetsvragen. html




literatuur

W. James Popham (2001). The truth about testing. An educator's call to action. Association for Supervision and Curriculum Development ASCD. isbn 0871205238 questia

Peter Tellegen (2000). Verantwoord testgebruik bij allochtonen. Een reactie. De Psycholoog, 231-235. doc of html

Frank Kok (1988). Vraagpartijdigheid. Methodologische verkenningen. Proefschrift UvA. SCO-publicatie 88.

Richard J. Rovinelli and Ronald K. Hambleton (1977). On the use of content specialists in the assessment of criterion-referenced test item validity. Tijdschrift voor Onderwijsresearch, 2, 49-60.

Lieven Verschaffel, Brian Greer and Erik de Corte (2000). Making sense of word problems. Lisse: Swets & Zeitlinger.

Mansour G. A. Hussein (1987). Private tutoring: A hidden educational problem. Educational Studies in Mathematics, 18, 91-96. abstract

Maarten van Gils (1977). De onbetrouwbaarheid van selektieve tekstbegriptoetsen. Pedagogiche Studiën, 54, 52-61.

H. Uiterwijk (1994). De bruikbaarheid van de Eindtoets Basisonderwijs voor allochtone leerlingen. Proefschrift. Arnhem: Cito. samenvatting pdf


Richtlijnen - Standards


1999 Standards for Educational and Psychological Testing. site, table of contents, bibliografie

Wayne J. Camara (2007). Standards for Educational and Psychological Testing: Influence in Assessment Development and Use. The College Board: Unpublished Paper. pdf

K. Bügel en P. F. Sanders (1998). Richtlijnen voor de ontwikkeling van onpartijdige toetsen. Arnhem: Cito. pdf

Educational Testing Service (2004). ETS international principles for fairness review of assessments. Princeton, NJ: Author. pdf

Richtlijn gebruik diagnostische instrumenten bij etnische minderheden (2005). Sectie Interculturalisatie NIP i.s.m. Landelijke Bureau ter Bestrijding van Rassendiscriminatie (LBR) Prijs: € 5,50

Toepasbaarheid van enkele psychologische tests bij personeelsbeoordeling bij etnische minderheden (2005). Sectie Interculturalisatie NIP i.s.m. Landelijke Bureau ter Bestrijding van Rassendiscriminatie (LBR) Prijs: € 5,50

Combinatiepakket: Richtlijn gebruik diagnostische instrumenten bij etnische minderheden (2005) en Toepasbaarheid van enkele psychologische tests… samen voor € 10,00. Bestellen via Art.1, tel. (010) 2010201, fax (010) 2010222 of via www.art1.nl

Cheryl L. Wild and Rohit Ramaswamy (Eds) (2008). Improving testing. Applying process tools and techniques to assure quality. Erlbaum. site



Paul E. Newton (2005): The public understanding of measurement inaccuracy, British Educational Research Journal, 31:4, 419-442 abstract



Hans Kuhlemeier, Melanie Steentjes en Frans Kleintjes (2003). De gelijkwaardigheid van open en meerkeuzevragen bij wiskunde. Effect van vraagtype en scoringswijze op gemeten vaardigheden, betrouwbaarheid, moeilijkheid en afnametijd. Arnhem: Cito. http://www.fi.uu.nl/wiskrant/bij_de_nummers/Bijlagen/ 23.2/rapport%20onderzoek%20vraagtypen%20bij%20wiskunde.pdf [gebroken link? 1-2009. Vraag mij de pdf, b.w.]



H. Kuhlemeier, F. Kleintjes & H. van den Bergh (2001). Effecten van toetsvorm en vraagtype op de moeilijkheid van de afsluitingstoetsen basisvorming. Een toepassing van multiniveau analyse met random kruisklassificatie. Pedagogische Studiën, 78, 197-211.



Michael E. Martinez (1999). Cognition and the question of test item format. Educational Psychologist, 34, 207-218 abstract



Randy Elliott Bennett and William C. Ward (Eds.) (1993). Construction versus choice in cognitive measurement. Issues in constructed response, performance testing, and portfolio assessment. Hillsdale, New Jersey: Lawrence Erlbaum. questia



J. Roeleveld (2002). De kwaliteit van het basisonderwijs: dalen de Citoscores? Pedagogische Studiën, 79, 389- . samenvatting



The effects of test translation on young English learners’ mathematics performance. Educational Researcher, 39, #8, 582-590. abstract



Glenn L. Rowley (1974). Which examinees are most favoured by the use of multiple choice tests? Journal of Educational Measurement, 11. abstract.



Thomas Haladyna, Susan Bobbit Nolen & Nancy S. Haas (1992). Raising Standardized Achievement Test Scores and the Origins of Test Score Pollution. Educational Researcher, 20, #5: 2 first paeg



8 mei 2012 \ contact ben at at at benwilbrink.nl    

Valid HTML 4.01!   http://www.benwilbrink.nl/projecten/cito_ontwerp_toetsvragen.htm