Zijn de toetsvragen van het Cito kwalitatief op orde?

Werkdocument

Ben Wilbrink

Zie ook mijn 2019 Jubileumboek 50 jaar Cito — Mantel der liefde blog

Bij de titel: Natuurlijk doet het Cito er van alles aan om ervoor te zorgen dat de toetsvragen deugdelijk zijn. Dat neemt niet weg dat het mogelijk is dat er belangrijke kwaliteitsaspecten kunnen zijn die niet alle aandacht hebben gekregen die ze verdienen. Dan gaat het niet om incidentele problemen bij een enkel item, maar om systemische problemen die bij iedere nieuwe toets weer terug kunnen komen.

J. M. Wijnstra (1984). Verantwoording Eindtoets Basisonderwijs 1981 (met een historisch overzicht over de periode 1966-1980). Specialistisch Bulleting Nr. 25. Cito. 144 blz. quarto offset

Zie voor de tekst van de paragraaf inhoudsspecificatie Rekenen hier
Er is in 1981 een vragenlijstonderzoek onder scholen gehouden (blz. 68-71), tamelijk gedetailleerd over ieder van de Eindtoetsvragen. De tevredenheid met de gestelde vragen was groot (kolom aanvaardbaraheid opgaven in tabel 8.4). Kennelijk spoort het streven van het Cito naar een gemiddelde moeilijkheid van 75% goed met het denken van leerkrachten over prestaties en cijfers van hun leerlingen: gemiddeld ongeveer zes valt aan te nemen. Natuurlijk is geen van beide vanzelfsprekend. Zie voor aantekeningen over de moeilijkehdi waar het Cito naar streeft de eerder gegeven link naar de webpagina capaciteiten_in_context.htm, voor de zesjescultuur cijfergeven.htm.
In bijlagen uitvoerige gegevens o.a. over doorstroming naar verschillende schooltypen gekruist tegen standaardscores, en ook nog eens de doorstroming vanuit brugklassen. Ik weet nooit goed wat ik aan dergelijke gegevens heb, omdat ze zijn verkregen in situaties waarin iedereen wist of kon weten wat de citoscores van de betreffende leerlingen waren. ook de leerlingen zelf. Met andere woorden: de gegevens zijn niet onder gecontroleerde condities verkregen, en bevestigen waarschijnlijk alleen maar bestaande beeldvorming.

Huub Jansen & Fred Goffree (Red) (1979). Wiskundeonderwijs. Reken maar! Wiskunde & didactiek in de onderwijzersopleiding. Instituut voor de ontwikkeling van het Wiskunde-Onderwijs.

Waar gaat het om?
1. Met de groeten van de reus
2. Dóórdenkers
3. Multiple joy
  1. De CITO-toets in matematisch-didaktisch perspektief.
    Aan de hand van een aantal nieuwe vragen bij verschillende items van de rekentoets van 1979 dient ieder van ons tot meer fundamentele inzichten te komen of zich deze inzichten opnieuw bewust te maken.
    p. 70
  2. Welk getal is even?
    1. 1370
    2. 2221
    3. 2467
    4. 3333
  3. Hoeveel is de 3 in 329 meer waard dan de 3 in 123?
    1. 97
    2. 100
    3. 206
    4. 297
  4. 672 × 528 = 354816
    6,72 × 0,528 =
    1. 0,354816
    2. 3,54816
    3. 354,816
    4. 3548,16
  5. Welk van de onserstaande getallen is deelbaar door 2 en ook door 25?
    1. 30702
    2. 32520
    3. 37700
    4. 38025
  6. I
    12 × 12½ =
    12 × 12 + ½ =
    II
    12 × 12½ =
    (12 × 12) + (12 × ½) =
    
    In elk hok staan twee opgaven. In welk hok zijn de uitkomsten van de twee opgaven gelijk?
    1. in beide hokken
    2. alleen in hok I
    3. alleen in hok II
    4. in geen van beide hokken
  7. 13,25 - 1,75 geeft dezelfde uitkomst als . . . .
    1. 13 - 1,50
    2. 13,50 - 1,50
    3. 13 - 2
    4. 14 - 1
  8. De temperaturen in een week waren:
    zondag 5°C
    maandag 4°C
    dinsdag 5°C
    woensdag 4°C
    donderdag 5°C
    vrijdag 8°C
    zaterdag 11°C
    
    Hoeveel graden was die week de gemiddelde temperatuur?
    1. 4°C
    2. 5°C
    3. 6°C
    4. 8°C
  9. Anne heeft ƒ 400,-- gespaard. De bank geeft per jaar 5% rente. Hoeveel rente krijgt Anne van de bank na een ½ jaar?
    1. ƒ 10,--
    2. ƒ 20,--
    3. ƒ 80,--
    4. ƒ 405,--
  10. Dan op blz. 77-83 drie keer 30 rekenopgaven waarvan wordt gezegd (p. 76) dat het de reken-items van de CITO-toets van 1979 zijn.
  1. Zin en onzin
  2. Beeldhouwwerk
  3. Vóór-denkwerk
Herman van Boxtel, Ronald Engelen & Anja de Wijs (2011). Wetenschappelijke verantwoording van de Eindtoets 2010. 97 blz. pdf
- Sinds 1970 brengt Cito de Eindtoets Basisonderwijs uit, als opvolger van de Amsterdamse Schooltoets. Elk jaar wordt sindsdien een volledig nieuwe versie geconstrueerd en afgenomen bij leerlingen van groep 8 van het reguliere basisonderwijs. Dat heeft niet elk jaar geleid tot een nieuwe wetenschappelijke verantwoording. In de jaren zeventig en tachtig verschenen dergelijke verantwoordingen met enige regelmaat (een interessante is bijvoorbeeld die voor de jaargang 1981 vanwege het historisch overzicht over de periode 1966-1980; zie Wijnstra, 1984). De laatst verschenen verantwoording is die over het jaar 1992 (Uiterwijk & Theunissen, 1996), maar de laatste door de COTAN beoordeelde versie van de Eindtoets betreft de jaargang 1987 op basis van een beoordeling uit 1992 (zie Evers, A., Braak, M.S.L., Frima, R.M., & Vliet-Mulder, J.C. van (2009)).
  Aanvang van de Inleiding
  - Wijnstra (1984), zie hierboven, is in mijn bezit, en overigens vrijwel onvindbaar (er is meen ik wel een exemplaar in de bibliotheek van het Cito).
  - Uiterwijk, J.H., & Theunissen, T.J.J.M. (1996). Verantwoording Eindtoets Basisonderwijs 1992. Onderzoeksrapporten basis- en speciaal onderwijs. Arnhem: Cito.
  - Evers, A., Braak, M.S.L., Frima, R.M., & Vliet-Mulder, J.C. van (2009). COTAN Documentatie. Amsterdam: Boom test uitgevers.
  - Elders vind ik deze verwijzing:
    Uiterwijk, J.H., & Engelen, R.J.H. (1993). Verantwoording eindtoets basisonderwijs 1990. Arnhem: Cito.
  Kan ik die laatste twee verantwoordingen boven water krijgen? De Cotan-documentatie is waarschijnlijk in iedere universiteitsbilbiotheek te raadplegen (maar daar ben ik dus helemaal niet zeker van, het is soms geheimzinnig in deze test-uithoeken).
In het werkdocument al uitgewerkte onderwerpen
- 8 februari:
eventueel nog uit te werken:
- 18 maart: H. Blok & H. Wesdorp (1979). De schooltoets na twaalf jaar. Een evaluatie van de op de leerling gerichte functies. Deel I selectie voor het V.O., advisering aan de ouders en opsporing van reserve aan talent. Deel II: analyse van de stand van het onderwijs, concretisering van doelstellingen en beïnvloeding van het lager onderwijs. Pedagogische Studiën, 56, 335-347, 388-396. online beschikbaar Hebben de auteurs aandacht voor de inhoudelijke kwalieiten van de toetsvragen? Wesdorp had belang bij het Cito, was in 1977 verontwaardigd over mijn stelling dat keuzevragen niet objectiever zijn dan open vragen (Onderwijsresearchdagen ORD).
  - “De CITO Eindtoets Basisonderwijs bestaat 12 jaar. In 1966 werd de toets (in Amsterdam [De Amsterdamse Schooltoets, b.w.]) geïntroduceerd; de constructeurs kenden 6 functies aan de toets toe. Deze waren a) Selectie voor het voortgezet onderwijs; b) Het opsporen van reserve aan intellect; d) Analyse van de stand van het onderwijs; e) Concretisering van doelstellingen van het onderwijs en f) Beïnvloeding van het lager onderwijs.”
  - In de literatuurlijst vooral interne rapporten van het R.I.T.P. (Research Instituut voor Toegepaste Psychologie, later samengenoegd met het Kohnstamm Insituut tot het SCO, later SCO-Kohnstamm Instituut, heden weer Kohnstamm Instituut) en artikelen uit Het Schoolblad. Ik verwacht daarom dat Blok en Wesdorp een nuttig overzicht geven van deze wat lastig of helemaal niet meer toegakelijke literatuur (ook een doctoraalscriptie van: K. van Putten en K. Rijnbeek, Leiden)
  - o te zien geen enkele aandacht voor inhoudelijke kwaliteit van toetsvragen, wel voor opvattingen etc. over de wenslijkheid van subtoetsen voor bijvoorbeeld spelling, en een een mysterieuze opmerking als de volgende (blz. 395): “Maar evenzeer kunnen bepalde positieve invloeden worden verwacht; met name is het niet uitgesloten dat de aandacht van de toets voor bepaalde ‘moderne’ vaardigheden in de Reken- en Algemene Kennis-toets het onderwijs heeft ‘bevrijd’ van ballast en suggesties voor zinvoller invulling heeft gedaan.”
- 18 maart: Ben Wilbrink (1977). Het verborgen vooroordeel tegen andere dan meerkeuze vraagvormen. In Stichting Onderwijsresearch: Congresboek Onderwijs Research Dagen (p. 219-222). html Ik stelde destijds aan de orde dat keuzevragen even subjectief zijn als open vragen. Dat was tegen het zere dogmatische been van het Cito, maar maakte daar de geesten wel rijp voor de acceptatie van open vragen. Dat laatste was noodzakelijk wilde het Cito de eindexamens VO behoorlijk kunnen gaan verzorgen. Verwante dogmatiek is dat een goede keuzevraag een vierkeuzevraag is. Zie daarover hoofdstuk 2 van mijn Toetsvragen ontwerpen">html
- 15 febr: http://www.rekencentrale.nl/Recent/Nieuw%20Cito%20leerlingvolgsysteem.pdf
- 12 febr: Henry Markovits (1986). The curious effect of using drawings in conditional reasoning problems. Educational Studies in Mathematics, 17, 81-87. abstract Een belangrijke kwestie bij het ontwerpen van toetsvragen is wat de rol van illustraties bij vragen kan zijn, of zelfs wat het effect is van verbale presentatie versus picturale presentatie van opgaven. Het is een complex probleem, want er spelen tal van mogelijke invloeden en samenhangen. Ik noem de denkstijlen van bijvoorbeeld Robert Sternberg. Afijn, hoe dat ook zij, dit artikel van Markovits stipt er iets van aan.
  - “ABSTRACT. College level students were given two paper and pencil conditional reasoning tests in varying order. The first test consisted of three problems presented entirely verbally. The second test was identical to the first except that two of the three problems made use of line drawings as concrete referents. Performance on the problems with drawings was significantly worse than for purely verbal presentation. In addition, interaction effects between the two forms of presentation were observed over the one-week interval between the two tests.”
- 9 febr: M. Hickendorff & J. Janssen (2009). De invloed van contexten in rekenopgaven op de prestaties van basisschoolleerlingen. Panama-Post, 28, 3-11. pdf
  - De eerste auteur: Universiteit Leiden; de tweede auteur: Cito. Een mooie samenwerking. Onderzoek zoals dit zou er in veelvoud moeten zijn, dat levert een goed zich op eventuele kwaliteitsproblemen in gangbare toetsen, dus ook op mogelijkheden om beter te ontwerpen en scherper op kwaliteit te controleren.
  - “De resultaten lieten ten eerste zien dat ‘toepassings’rekenvaardigheid, zoals gemeten bij contextopgaven en ‘kale’ rekenvaardigheid, zoals gemeten bij getalopgaven twee afzonderlijke, maar samenhangende constructen lijken te zijn.”
  - “Ten tweede bleek het taalniveau van de leerling van invloed: leerlingen die thuis geen Nederlands spreken hadden een prestatieachterstand ten opzichte van leerlingen die thuis wel Nederlands spreken, wat deels samenhangt met het feit dat het ook slechtere lezers zijn. Voor de groep als geheel is de prestatieachterstand van leerlingen die thuis geen Nederlands spreken groter bij de contextopgaven dan bij de kale opgaven. Splitsen we de resultaten uit naar leesniveau, dan blijkt dat binnen elk leesniveau deze achterstand nog steeds bestaat inzake de contextopgaven, maar dat deze is verdwenen of zelfs omgezet naar een voorsprong als het om kale opgaven gaat.”
  - Schitterend. Dit is nu een voorbeeld van toetsend empirisch onderzoek.
  - Goed gedaan. De interactie tussen taalbeheersing en rekenprestaties (figuur 9) is moeizaam gerapporteerd, maar het is ook een lastig onderwerp. Ik vind het een tikje misleidend, omdat de twee groepen leerlingen zich anders verdelen over die schaal van taalvaardigheid. Ik heb niet meteen een alternatief voorhanden. Mijn probleem is misschien dat eenzelfde score voor taalvaardigheid niet dezelfde betekenis heeft binnen de ene, respectievelijk de andree groep (zie ook mijn opmerkingen over taalbeheersing, hierbeneden). Ik had het misschien liever zonder die figuur 9 gezien.
  - Wat ik mis in de slotbeschouwing: er zijn aan deze resultaten ook consequenties te verbinden m.b.t. de rekeninstructie: als die vooral in de vorm van contextopgaven gebeurt, dan zijn de leerlingen met Nederlands als tweede taal voortdurend in het nadeel. Het is een beetje een dilemma, natuurlijk, want ze moeten ook leren omgaan met contextopgaven.
  - Wat ik mis bij de taalbeheersing is aandacht voor de vraag wat taalvaardigheid eigenlijk is. De onderzoekers hebben het nadrukkelijk over de taalvaardigheid van het Nederlands. Mijn onderzoekersvermoeden is dat de taalvaardigheid van tweetalige kinderen juist groter is. Een tweede onderzoeksvermoeden is dat die grotere taalvaardigheid deze leerlingen juist ook extra problemen kan bezorgen bij het begrijpen van contextopgaven.
  - Ik wacht met spanning op vervolgonderzoeken.
  - Serendipity. Het eerste artikel dat ik na het lezen van Hickendorff & Janssen onder ogen kreeg: M. A. (Ken) Clements (1980). Analyzing children’s errors on written mathematical tasks. Educational Studies in Mathematics, 11, 1-21. abstract Hierin ook directe vergelijking tussen woordproblemen en hun kale rekenversies. Een cake is in vier delen gesneden, en Wim neemt er een van. Welk deel (fraction) van de cake is over (left)? De kale versie: Schrijf het antwoord op 1 − ¼ = ______ (Antwoord). Het woordprobleem wordt redelijk beantwoord, de kale som beroerd. Uit interviews met kinderen blijkt dat het beeld dat het woordprobleem oproept, enorm helpt, en dat sommige leerlingen bij de kale som geblokkeerd zijn op hun idee dat ze geen breuken aankunnen. Waarom vermeld ik dit onderzoek hier? Niet omdat het de resultaten van Hickendorff & Janssen zou weerspreken, dat doet het niet. Maar dit artikel zou bij OW&OC de indruk kunnen hebben gewekt dat er niets aan de hand is met contextopgaven, althans niet in de zin zoals door Hickendorff & Janssen onderzocht.
  - Ik krijg een reactie dat het door Clements gesignaleerde probleem zich waarschijnlijk ook voordoet bij meerdere opgaven uit het rekendeel van de Cito Eindtoets Basisonderwijs. Dat brengt mij op het volgende:
    - Interessant. Laten we dit fenomeen goed vasthouden.
    - Woordproblemen (vooral die met een afbeelding erbij) kunnen dus echt veel makkelijker zijn dan de bijpassende kale som.
    - De normale situatie is dat woordproblemen moeilijker zijn dan hun kale som, omdat de leerling eerst het probleem moet vertalen naar een rekenmodel, en dat dan nog uitrekenen.
    - Het is dus altijd een empirische vraag of het woordprobleem al dan niet moeilijker blijkt dan de bijpassende kale som. Het Cito zou daar standaard op moeten onderzoeken, op dezelfde manier als zij DIF-analyses standaard uitvoeren om na te gaan of vragen mogelijk partijdig zijn. Niet omdat woordproblemen die makkelijker zijn dan hun kale som ipso facto kwalitatief ondeugdelijk zouden zijn, dat lijkt me niet het geval, maar omdat je als ontwerper en verantwoordelijke voor zo’n belangrijke toets moet weten hoe je items in feite functioneren.
    - Het kan voor de ene leerling natuurlijk anders liggen dan voor de andere, dat is met alles zo, het gaat er dus om hoe belangrijke (deel)groepen leerlingen met de opgaven omgaan.
    - Een variant is nog het volgende: de leerling die de informatie in de antwoordalternatieven benut om tot het waarschijnlijk juiste antwoord te komen, zou op de kale som met open antwoord ook wel eens een heel stuk slechter kunnen scoren. Of de keuzevraag dan een redactiesom is, of met een afbeelding is verrijkt, is dan mogelijk van ondergeschikt belang.
Dit is een werkdocument ter voorbereiding van een publicatie. Wil je ideeën hieruit gebruiken, neem dan contact met mij op.

Inhoud
intro
websites
sleutelpublicaties
literatuur

schets voor een opzet
De toetsen van het Cito zijn alomtegenwoordig in het onderwijs, van leerlingvolgsysteem in het basisonderwijs, tot straks rekentoetsen bij de afsluitende examens van het voortgezet onderwijs.
Het Cito is natuurlijk niet de enige speler in het publieke en private examenveld, maar in dit werkdocument staat ‘Cito’ ook voor het geheel van examinerende instanties.
Veel van deze instituten zijn lid van de Vereniging van Examens. De Vereniging geeft een goed verzorgd kwartaaltijdschrift uit: Examens. Tijdschrift voor de Toetspraktijk.

Mogelijke kwaliteitsproblemen op item- en toets-niveau zijn ten minst de volgende:
1. Het feit sommige toetsen UITSLUITEND meerkeuzevragen bevatten.
  Dat is naar grote deelgroepen leerlingen partijdig, op een manier zoals bij het Cito nog nooit naar partijdigheid is gekeken. Ingang tot wetenschappelijk onderzoek op dit punt: Robert Sternberg.
2. Sommige typen vragen zijn zonder meer intelligentietest-vragen.
  Ruimtelijk inzicht hoort tot deze categorie, in veel rekentoetsen tegenwoordig met enkele vragen aanwezig.
3. De kwaliteit van teveel vragen laat te wensen over: vragen moeten volstrekt ondubbelzinnig zijn, etcetera.
4. Het mag niet zo zijn dat toetstraining een voordeel oplevert op examens of de Eindtoets Basisonderwijs.
5. Niet alle contexten in rekenvragen zijn even handig gekozen.
  Het gaat om onderbouwing dat de betreffende vragen valide manieren opleveren op rekenvaardigheid te toetsen.
6. Is het taal- en rekenniveau van respectievelijk de taalvragen en de rekenvragen adequaat, en niet te laag?
  Ook gezien de nieuwe referentieniveaus (commissie-Meijerink) (die op zichzelf ook nog tal van vragen oproepen).
  Het gevraagde niveau is niet hetzelfde de moeilijkheid van vragen.
7. Er zijn rekenvragen die als woordprobleem met afbeelding erbij, makkelijker zijn dan de bijbehorende kale rekenvraag is.
  Deze vragen zijn wat validiteit betreft verdacht: wat gebeurt er eigenlijk bij de beantwoording van dergelijke vragen, gaat het hier niet veeleer om verschillen in intelligentie? Hoe vaak komt dit voor? Is het probleem bekend bij het Cito?
8. Het talige karakter van veel vragen, ook rekenvragen, levert mogelijk grotere problemen op, wat de validiteit van de vragen betreft, de eerlijkheid/partijdigheid, dan wat blijkt uit onderzoek van het Cito zelf.
9. De woordproblemen in rekentoetsen toetsen teveel tegelijk: het opstellen van een rekenmodel, en het uitrekenen van het antwoord.
  Dat moet vaker uit elkaar worden gehaald, en op zijn minst vergezeld gaan van de opdracht om op kladpapier de uitwerking aan te geven.
10. In sommige rekentoetsen ontbreken kale rekenopgaven vrijwel geheel, daar is in ieder geval de balans volstrekt zoek tussen het rekenen als zodanig, en het aanpakken van woordproblemen. In leerlingvolgsystemen is zo’n onbalans buitengewoon ernstig, omdat individuele en groepstekorten in basale rekenvaardigheden dan moelijk zijn te signaleren. [Het leerlingvolgsysteem voor het basisonderwijs is bijvoorbeeld op deze manier eenzijdig. Te beginnen met 2012 en groep drie komt het Cito met een nieuwe editie waarin kale rekensommen ook weer zijn opgenomen]
11. Ik vermoed dat de wijze van vragen naar inzicht en vaardigheid (taal, rekenen) op meer manieren eenzijdig is dan alleen de meerkeuzevraagvorm.
  Kunnen we daar inzicht in krijgen? (bijvoorbeeld de verhouding woordproblemen en kale rekensommen; opgaven die analytisch van karakter zijn, versus opgaven die practische en creatieve vaardigheden vragen; Sternberg)
Hoe ziet het kwaliteitscircuit voor toetsen (van het Cito, en andere) er uit? En op welke manier doen deze instituties hun werk, en gaan zij om met gesignaleerde gebreken?
1. De minister is verantwoordelijk, en betaalt. De minister zal enige garantie van kwaliteit willen hebben.
2. De Inspectie ziet toe op de kwaliteit van van alles en nog wat, dus ook hierop.
3. De Cotan keurt de toetsen van het Cito.
  Cotan: Commissie Testaangelegenheden van het Nederlands Instituut van Psychologen. De Cotan is velen minder bekend. Ik geef een voorbeeld van het belang ervan. Het ministerie van OCW stelt het kwaliteitsoordeel van de Cotan als voorwaarde voor de toelating van tests die aan het eind van het basisonderwijs worden gebruikt om leerlingen in speciale trajecten te plaatsen, zoals leerweg-ondersteund onderwijs.
4. De ouders van leerlingen hebben recht op kwalitatief behoorlijke toetsen, en kunnen juridische procedures aanspannen wanneer die kwaliteit om welke reden dan ook ontbreekt, ten nadelen van hun kroost.
  Recht van beroep. Beroerd geregeld voor basisonderwijs en pabo's, maar het model ervoor is natuurlijk bekend: de Colleges van Beroep voor de Examens, in het hoger onderwijs.
5. Het ontvangende voortgezet onderwijs zal iets moeten doen met eventuele gebreken en eenzijdigheden van de Cito Eindtoets Bassionderwijs, en heeft dan een moeilijker verhaal naar ouders toe.
6. Onderwijsonderzoekers doen er goed aan zich te realiseren dat de scores (op items van) de reken- en taaltoetsen van het Cito niet altijd eenduidige betekenis hebben (het validiteitsprobleem).
7. Het onderwijsveld is direct bij deze problematiek betrokken, want zij moeten de leerlingen voorbereiden op de reken- en taaltoetsen, zij moeten behoorlijk reken- en taalonderwijs geven. En wat is dan behoorlijk onderwijs: wordt dat bepaald door het Cito?
websites
De site van het Cito, met o.a. publicaties, PPON, toetsspecials.

De site van de Commissie Testaangelegenheden Nederland (COTAN).

De site van Ben Wilbrink bevat veel materiaal over het ontwerpen van toetsvragen, examens, selectie, overgangen in het onderwijs en van onderwijs naar arbeidsmarkt.

sleutelpublicaties
Lidy Peters spreekt met Anna Bosman (2012?). ‘Cito moet meerkeuzedeel spellingtoets afschaffen’ pdf

Jan-Eric Gustafsson & Lisbeth Åberg-Bengtsson (2010). Unidimensionality and Interpretability of Psychological Instruments. In Susan Embretson: Measuring psychological constructs. Advances in model-based approaches (97-121). American Psychological Association. annotatie

D. J. Bos (1973). De Amsterdamse schooltoets en de differentiatie van brugklasleerlingen. Pedagogische Studiën, 50, 62-69. online

Jonathan Wai, David Lubinski & Camilla P. Benbow (2009). Spatial ability for STEM domains: Aligning over 50 years of cumulative psychological knowledge solidifies its importance. Journal of Educational Psychology, 101, 817-835. pdf
- STEM = Science, Technology, Engineering, Mathematics.
- Ruimtelijk inzicht wordt getoetst door vragen zoals er enkele typisch in de Eindtoets Basisonderwijs van het Cito voorkomen, die eruitzien alsof ze ruimtelijk inzicht toetsen, en die dat dus ook toetsen (zie de afbeelding in dit artikel).
AERA, APA & NCME (1999).The Standards for Educational and Psychological Testing. zie hier.

APA. Joint Committee on Testing Practices (2000). Rights & responsibilities of test takers: Guidelines and expectations. Washington, DC. American Psychological Association. html

K. Bügel en P. F. Sanders (1998). Richtlijnen voor de ontwikkeling van onpartijdige toetsen. Arnhem: Cito. pdf
- Biedt wat de titel belooft, met voorbeelden van toetsvragen die partijdig kunnen zijn, en waarom dat zo is.
< M. Job Cohen (1981). Studierechten in het wetenschappelijk onderwijs Proefschrift Rijksuniversiteit Leiden. Zwolle: Tjeenk Willink. http://www.ben-wilbrink.nl/Cohen_1981_Studierechten_inh_3.1_samenv.pdf en ook < a href="http://ben-wilbrink.nl/Cohen_Studierechten_99-139.pdf" target='_blank'>http://ben-wilbrink.nl/Cohen_Studierechten_99-139.pdf

L. M. C. M. Cremers-van Wees, J. W. M. Knuver, H. J. Vos, & W. J. M. Van der Linden (1998). Model gedragscode toetsen, beoordelen en beslissen in het voortgezet onderwijs. Enschede: OCTO. isbn 9036510899. http://www.ben-wilbrink.nl/Model_gedragscode_toetsen_beoordelen_en_beslissen_in_het_voortgezet_onderwijs.pdf [scan voor persoonlijk gebruik]
- L. M. C. M. Cremers-van Wees, J. W. M. Knuver, H. J. Vos, & W. J. M. Van der Linden (1998). Toetsen, beoordelen en beslissen in het voortgezet onderwijs. Ontwikkeling van een gedragscode voor leraren. Enschede: OCTO.isbn 9036510902.
- L. M. C. M. Cremers-van Wees, J. W. M. Knuver, H. J. Vos, & W. J. M. Van der Linden (1998). Leraren positief over invoering gedragscode voor cijfers geven. Didactief & School, 4, 4-8.
- De opdracht voor bovenstaand door SVO bekostigd project is destijds mede door mij vormgegeven, ik werkte gedetacheerd bij SVO. Ik heb het project niet verder kunnen begeleiden (SVO werd opgeheven), maar heb wel een reeks gevallen bijgedragen voor de casuïstiek, en deelgenomen aan de expert-meeting.
- Binnen de NVE (Nederlandse Vereniging voor Examens) wordt (anno 2005) naar verdere ontwikkeling van het onderwerp gekeken (contact: George Moerkerke).
Educational Testing Service (2008). ETS International principles for fairness review assessments. pdf
- "Using the International Principles as a guideline, supplemented by regionally appropriate content and examples, test developers can design and deliver assessments that are technically sound, fair, valid, and useful for all intended test takers.”
- Merk op dat ETS, dat gewoon een enorm Amerikaans bedrijf is, hier een vreemde draai maakt door ‘'technisch eerlijke en valide’ producten te beloven. Ongetwijfeld is dit een juridische vondst, inhoudelijk is het natuurlijk onzin: het zal de techniek een rotzorg zijn. ETS is te prijzen voor de inspanning, maar het gaat hier wel om een slager die alleen zelf zijn waren keurt. Deze richtlijnen voorzien er niet in dat de doelgroep — de testees — een stem krijgen, terwijl deze voice juist wezenlijk is voor eerlijke procedures.
ETS Standards (Educational Testing Service)
- (2002) ETS Standards for quality and fairness. pdf
- (2003) ETS Fairness review guidelines pdf
- (2005) ETS Guidelines for constructed-response and other performance pdf
- (2007) ETS International principles for fairness review of assessments pdf
Adriaan D. de Groot (1966). Vijven en zessen. Groningen: Wolters.

A. D. de Groot (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie, 25, 360-376. html

Wim K. B. Hofstee (2007). Recht op afschrift van het dossier. De Psycholoog, 618-619.

NIP (1986). Richtlijnen voor ontwikkeling en gebruik van psychologische tests en studietoetsen. Amsterdam: Nederlands Instituut voor Psychologie. Tweede editie.

L. S. Shulman (1986). Those who understand: Knowledge growth in teaching. Educational Researcher, 15 #2, 4-14. pdf

Ben Wilbrink (1983/2011). Toetsvragen ontwerpen: Hoofdstuk 8. Kwaliteit van toetsvragen. html
- Richtlijnen, beroep, kwaliteits-check, aandachtspunten / casuïstiek
literatuur

Spellingtoets van het Cito

Anna Bosman & José Schraven (2013). Cito-spellingtoets schaadt het spellingonderwijs. Basisschool Management, 1, 4-9.
- Op verzoek van de redactie van dit tijdschrift zetten de auteurs nogmaals hun bezwaren tegen de spellingtoets van het Cito uiteen.
- Het Cito ( de Wijs, Krom & van Berkel, 2006) definieert een en ander. Zo ook:
  Om die [niet-klankzuievere woorden, b.w.] goed te kunnen schrijven moeten de leerlingen regels kunnen toepassen of een woord naar analogie van een ander woord kunnen schrijven.
  Dit lijkt mij problematisch, omdat ik toch vermoed dat leerlingen/mensen spellen op basis van het woordbeeld dat ze hebben, en pas bij onzekerheid daarover een regel of een analogie zullen zoeken. Wanneer leerlingen in staat zijn om vooral op basis van woordbeelden te spellen, dan zou het zomaar kunnen zijn dat de confrontatie in een toets met fout gespelde woorden tot verwarring leidt; daar moet toch wel psychologisch onderzoek over zijn, lijkt me? Bosman en Schraven noemen:
  Uit onderzoek is komen vast te staan dat het aanbieden van foute spellingen tot een verslechtering van de spellingvaardigheid leidt (Brown, 1988; Dixon & Kaminska, 1997; Jacoby & Hollingshead, 1990) en met name voor leerlingen met een relatief zwak geheugen (McClelland, 2001).
  Ik zal deze bronnen nog natrekken. Het maakt nogal verschil bij het ontwerpen van testvragen wat het precieze vertrekpunt van de ontwerper is. Bosman en Schraven signaleren hier overigens geen probleem: zij gaan mee met dit deel van de definitie van het Cito.
- In antwoord op de kritiek schrijft De Wijs (2010)
  Het zelf schrijven van een woord is niet identiek aan het herkennen van een foute schrijfwijze van dat woord. Beide deelvaardigheden hangen wel samen: als je een woord correct kunt schrijven, kost het je waarschijnlijk weinig moeite om een spelfout in dat woord te ontdekken.
  De Wijs heeft ongetwijfeld gelijk, maar dit is bepaald geen onderbouwing van het gebruiken van meerkeuzevragen om spelling te toetsen.
- Het door Bosman en Schraven gesignaleerde probleem bij meerkeuzevragen die spelling toetsen is overigens een speciaal geval van een algemeen probleem van het onoordeelkundig gebruiken van meerkeuzevragen. Zie hoofdstuk twee van mijn ‘Toetsvragen ontwerpen’.
Saskia van Berkel, Jos Keuning & Marieke Tomesen (2013). Het onderzoek van Bosman en Schraven in een ander perspectief. Een reactie op het artikel ‘Cito-spellingtoets schaadt het spellingonderwijs’. Basisschool Management, 1, 9-11.
- Ik ben jaloers op Bosman en Schraven: zij krijgen tenminste antwoord van het Cito.
- Bosman en Schraven hebben het helemaal bij het verkeerde eind, zeggen deze auteurs. Laten we eens zien hoe dat dan zit.
- Van Berkel, Keuning en Tomesen gebruiken gelegenheidsargumenten. Zie bijvoorbeeld:
  Teksten die leerlingen schrijven, zullen immers nog spelfouten bevatten. Het is dan ook belangrijk dat zij leren deze fouten op te sporen en te verbeteren, voordat zij hun werk inleveren. Het herkennen van fouten wordt in de LOVS-toetsen Spelling gemeten aan de hand van meerkeuzeopgaven.
  Merk op hoe de auteurs hier switchen van het verbeteren van spelfouten door leerlingen zelf gemaakt, naar het signaleren van spelfouten van anderen. Maar dat is weliswaar niet totaal iets anders, maar het is wel anders, en dus een validiteitsprobleem. Nog afgezien van de nu voor de hand liggende vraag: als het gaat om het verbeteren van eigen spelfouten, waarom volstaat dan het dictee niet?
- Nogal wiedes dat er correlationele verbanden zijn tussen scores op dictees, en die op meerkeuzetoetsen. Maar die verklaren op zich nog niets, anders dan de auteurs suggereren: “leerlingen die snel fouten herkennen, zijn vaak ook goed in het foutloos schrijven.
- De sfeer die dit ademt is: toetsen gaan boven onderwijs. Zie in dat verband ook de opmerkingen van de auteurs in de paragraaf ‘Verantwoordelijkheid van de schoolleiders’: psychometrisch regentesk, ik heb er even geen andere woorden voor.
- De auteurs gaan niet echt in op de argumenten en onderzoeksresultaten van Bosman en Schraven, maar houden in plaats daarvan een uitvoerig betoog over betrouwbaarheden. Interessant, maar bezijden de zaak waar het over gaat: de validiteit van de meerkeuzetoetsen voor spelling, en de onderwisjpraktijken waartoe deze vorm van toetsen aanspoort. Is deze afleidingsmanoevre opzettelijk? Wie zal het zeggen? In ieder geval is de paragraaf ‘Spellingfouten aanbieden is slecht voor het leren van de jusite spelling?’ vanuit kwade trouw geschreven. Bosman en Schraven hebben niet onderzocht of aanbieden van spelfouten leidt tot het leren van spelfouten: zij verwijzen naar bekende literatuur op dat onderwerp. Bovendien verwijzen Bosman en Schraven naar een waarneembare praktijk in het basisonderwijs: dat er met leerlingen oefeningen worden gedaan op juist het soort keuzevragen dat in de spelligntoets van het Cito is opgenomen. En precies in de combinatie van het bekend zijn van de negatieve effecten van het aanbieden van spelfouten, en het juist vanwege de Cito-toets aanbieden van oefeningen in het herkennen van spelfouten, zit het venijn. Het Cito kiest ervoor om op deze kwestie niet in te gaan, en Bosman en Schraven ook hier weer als naïevelingen op toetsgebied weg te zetten. Dank u.
- Op www.cito.nl gaan we gedetailleerder in op onze psychometrische kanttekeningen bij de onderzoeken van Bosman en Schravenh: ttp://spelling.cito.n>l > Psychometrische kanttekeningen bij de onderzoeken van Bosman en Schraven
  pm: hier moet ik nog naar kijken.
Bosman, A.M.T., Schraven, J.L.M. & van Eekhout, T. (2010). De nieuwe Cito-spellingtoets. Jeugd in School en Wereld, 94(10), 6-9. pdf

Ben Schraven (2011). De omvang van een onderzoek en de validiteit van de Cito-spellingtoetsen. pdf

Schraven, J.L.M., Bosman, A.M.T. & van Eekhout, T. (2010). De nieuwe Cito-spellingtoets ter discussie. Tijdschrift voor Orthopedagogiek (O en A), 49, 75-86.

A. de Wijs (2010). Kritiek op toetsen Spelling steunt op losse gronden. Orthopedagogiek: Onderzoek en Praktijk, 49, 374-381.

Bosman A.M.T., Schraven, J.L.M., & van Eekhout, T. (2011). De Cito-spellingtoets: onze bezwaren nader toegelicht. Een reactie op 'Kritiek op toetsen spelling steunt op losse gronden'. Orthopedagogiek: Onderzoek en Praktijk, 49, 418-427 .

L. L. Jacoby & A. Hollingshead (1990). Reading student essays may be hazardous to your spelling: Effects of reading incorrectly and correctly spelled words. Canadian Journal of Psychology, 44, 345-358.

Brown, A.S. (1988). Encountering misspellings and spelling performance: Why wrong isn't right. Journal of Educational Psychology, 80, 488-494.

Dixon, M., & Kaminska, Z. (1997). Is it misspelled or is it mispelled? The influence of fresh orthographic information on spelling. Reading and Writing: An interdisciplinary Journal, 9, 483-498. abstract
- It has recently been suggested (Brown 1988; Jacoby & Hollingshead 1990) that a single visual encounter with a misspelled word is sufficient to cause that word to be misspelled subsequently, despite the fact that prior to the encounter the word could be spelled correctly. The effect is perhaps particularly surprising since it has been reported within English orthography, in which, because of the complexity of the relationship between sound and spelling, whole-word representations in the spelling lexicon play a prominent role.
  One of the first experimental investigations of the de-stabilizing effect of seeing incorrect spellings was that of Pintner et al. (1929), who found that participants who were able to generate the correct spelling of a word were unable to identify the correct version from among a number of incorrect alternatives. Similar evidence was provided by Nisbet (1939), who showed that participants capable of generating correct spellings could not reliably correct incorrect versions of the same words. In both cases, it seemed that exposure to a misspelling of a word at the time of obtaining information from the internal spelling lexicon impaired access to, or retrieval of, the correct version of a word from the lexicon.
  - Pintner, R., Rinsland, H.D. & Zubin, J. (1929). The evaluation of self-administering tests. Journal of Educational Psychology 20 107-111.
  - Nisbet, S.D. (1939). Non-dictated spelling tests. British Journal of Educational Psychology, 9, 29-44. abstract [niet online gevonden]
Pierre Perruchet, Arnaud Rey, Eimeric Hivert & Sébastien Pacton (2006). Do distractors interfere with memory of study pairs in associative recognition? Memory & Cognition, 34, 1046-1054. pdf
- These results suggest that exposure to potentially confounding information generates interference even if this information is known to be incorrect. Some implications are outlined, especially with regard to the widespread use of multiple-choice tests in knowledge evaluation.
- Prior studies have shown that on recognition or multiple-choice tests, participants rate distractors as being more correct on their successive occurrences. This effect is usually referred to as the negative suggestion effect (e.g., Toppino & Brochin, 1989). It may be construed as an instance of a more general phenomenon—namely, that as a consequence of its repetition, false information tends to be perceived as increasingly true (this phenomenon has been coined the illusory truth effect; see, e.g., Begg, Anas, & Farinacci, 1992; Gerrig & Prentice, 1991; Hasher, Goldstein, & Toppino, 1977). Note, however, that the focus of this literature is on the fate of distractors (or more generally, incorrect display), whereas our concern is about the fate of correct knowledge.
  - Toppino, T. C., & Brochin, H. A. (1989). Learning from tests: The case of true-false examination. Journal of Educational Research, 83, 119-124. preview
  - Begg, I. M., Anas, A., & Farinacci, S. (1992). Dissociation of processes in belief: Source recollection, statement familiarity, and the illusion of truth. Journal of Experimental Psychology: General, 121, 446-458.
  - Hasher, L., Goldstein, D., & Toppino, T. (1977). Frequency and the conference of referential validity. Journal of Verbal Learning & Verbal Behavior, 16, 107-112. abstract
  - Gerrig, R. J., & Prentice, D. A. (1991). The representation of fictional information. Psychological Science, 5, 336-340. abstract
Remmers, H.H.; Remmers, Edna M. (1926). The negative suggestion effect on true-false examination questions. Journal of Educational Psychology, Vol 17(1), Jan 1926, 52-56

C. E. Sproule (1934). Suggestion effects of the true-false test. Journal of Educational Psychology; 25(4):281-285.
- ABSTRACT The negative suggestion effects of true-false tests are found to be slight and usually outnumbered by the positive suggestion effects. Allowing children to correct their true-false test papers offsets the negative effects and contributes positive knowledge.
Roediger III, Henry L.; Marsh, Elizabeth J. (2005). The Positive and Negative Consequences of Multiple-Choice Testing. Journal of Experimental Psychology: Learning, Memory, and Cognition, Vol 31(5), 1155-1159. abstract

Stellan Ohlsson (2011). Deep Learning. Cambridge University Press.
- Ik noem dit boek hier, omdat Ohlsson een uitvoerig hoofdstuk heeft over het leren van je eigen fouten. Dat lijkt mogelijk relevant voor kwesties die rijzen over de effecten van confrontaties van leerlingen met foute informatie, hoewel dat geen fouten van henzelf zijn.
- L'erreur dans l'acquisition de l'orthographe. Arnaud Rey, Pierre Perruchet. pdf
  Abstract From an educational standpoint, even if errors underline the child's difficulties in his learning of written skills, they are generally used positively since they help tease out those procedures and strategies that are already acquired from those that remain fragile or are in the process of being mastered. Yet numerous studies point out the negative role errors play in the learning process. Indeed, a recent study conducted by the authors showed, in a paradigm of learning the spelling of pseudo-words, that the production of an error induced some interference with the memorization of correct spelling. Similarly, we observed that the attentional use and processing of errors in software programs geared to learning written skills also interfere with the memorization process of the learner. Taken together, these results encourage the practice of neutralizing these interferences by reducing attention given to errors.
- Kang, Sean H. K.; Pashler, Harold; Cepeda, Nicholas J.; Rohrer, Doug; Carpenter, Shana K.; Mozer, Michael C. (2011). Does incorrect guessing impair fact learning? Journal of Educational Psychology, Vol 103(1), 48-59. abstract; pdf
  - Wat dit experimentele onderzoek betreft, is het antwoord op de titelvraag: nee. Zie ook het theoretisch kader voor dit onderzoek.
W. James Popham (2001). The truth about testing. An educator's call to action. Association for Supervision and Curriculum Development ASCD. isbn 0871205238 questia

Peter Tellegen (2000). Verantwoord testgebruik bij allochtonen. Een reactie. De Psycholoog, 231-235. doc of html
- "Door Evers en Te Nijenhuis is gesteld dat traditionele intelligentietests goed bruikbaar zijn voor allochtonen. In deze reactie wordt beargumenteerd dat deze conclusie niet houdbaar is en discriminerend ten opzichte van allochtonen. Onze kritiek sluit aan bij de problemen die Van den Berg en Van Leest schetsen bij het testen van allochtonen, hun aanbevelingen lijken echter minder geslaagd.
  Met het ongenuanceerde standpunt van Evers en Te Nijenhuis dreigen de inspanningen van het NIP voor verantwoord testgebruik bij allochtonen teniet te worden gedaan."
Frank Kok (1988). Vraagpartijdigheid. Methodologische verkenningen. Proefschrift UvA. SCO-publicatie 88.

Richard J. Rovinelli and Ronald K. Hambleton (1977). On the use of content specialists in the assessment of criterion-referenced test item validity. Tijdschrift voor Onderwijsresearch, 2, 49-60.
- abstract pdf of Laboratory of Psychometric and Evaluation Resaerchreport no. 24 (the same text).
Lieven Verschaffel, Brian Greer and Erik de Corte (2000). Making sense of word problems. Lisse: Swets & Zeitlinger.

Mansour G. A. Hussein (1987). Private tutoring: A hidden educational problem. Educational Studies in Mathematics, 18, 91-96. abstract
- Coaching. Ofwel: training op de Eindtoets Basisonderwijs, althans dat soort toetsen. Een bericht uit Kuwait, waar natuurlijk veel geld rondzweft om dit type persoonlijk onderwijs te kunnen betalen.
Maarten van Gils (1977). De onbetrouwbaarheid van selektieve tekstbegriptoetsen. Pedagogiche Studiën, 54, 52-61.
- Dit is een artikel van een buitenstaander die zich vertilt aan de psychometrie. De inhoud lijkt mij echt irrelevant. Het artikel is wel interessant omdat het een helder voorbeeld kan zijn van hoe buitenstaanders zich kunnen vertillen aan de methodologie van die voor hen vreemde discipline. Zoals ook Freudenthal doet. De keerzijde daarvan is: de toetserij van het Cito raakt alle burgers, dat zijn vooral buitenstaanders, dus het Cito heeft wel een probleem om te legitimeren wat zij doet. Doet Djien Thio dat goed, in zijn reaktie?
- K. D. Thio (1977). CITO-commentaar op Van Gils’: ‘De onbetrouwbaarheid van selectieve tekstbegriptoetsen’. Pedagogische Studiën, 54, 62-67.
H. Uiterwijk (1994). De bruikbaarheid van de Eindtoets Basisonderwijs voor allochtone leerlingen. Proefschrift. Arnhem: Cito. samenvatting pdf Gehele tekst: pdf
- Wat mij trof, bij snel doornemen, is hoe ontzettend moeilijk het is om zinvolle empirische data te krijgen. Eigenlijk is dat onbegonnen werk, maar dat zal ook wel de ervaring van Uiterwijk zijn geweest. Er gebeurt zo ontzettend veel, de leerlingen zwermen uit, met twee adviezen op zak, waar ouders nog weer eens overheen gaan, en dan komen die koters in heel andere onderwijssituaties terecht dan ze gewend waren. Dat levert geen keurig nette gecontroleerde gegevens op waarmee je wat zou kunnen gaan rekenen aan bias-modellen.
- Henny Uiterwijk heeft bij het Cito interessante studies gedaan, in samenwerking met een vakgroep van de KUB, die zijn helaas (behalve de samenvatting van zijn proefschrif) niet op de site van het Cito beschikbaar
- Uiterwijk, H., en Vallen, T. (1992). Een toets mag moeilijk zijn, maar niet onbedoeld moeilijk. De toetsesultaten van allochtone leerlingen en de 'itembias'. Tijdschrift voor Onderwijs en Opvoeding, 51, 7, 15-21.
- Uiterwijk,J.H. Item- en testbias in de Eindtoets Basisonderwijs 1987. Arnhem: Cito; 1990. 111 blz. (Onderzoeksrapport basis- en speciaal onderwijs Nr.1).
- H. Uiterwijk (1994). De bruikbaarheid van de Eindtoets Basisonderwijs voor allochtone leerlingen. Proefschrift. Arnhem: Cito. samenvatting pdf
- H. Uiterwijk en T. Vallen (1997). Onderzoek naar bias voor allochtone leerlingen in de Cito-Eindtoets Basisonderwijs. Pedagogische Studiën, 74, 21-32.
- H. Uiterwijk and T. Vallen (2005). Linguistic sources of item bias for second generation immigrants in Dutch tests. Language Testing, 22, 211-234.
  - hier bestaat een pdf van, wie deze graag toegestuurd wil hebben, stuur mij een mailtje
  - Dit artikel adresseert het ontwerpen van toetsvragen. Wat is het dat een toetsvraag partijdig kan maken? Bestaat daar inzicht in, dan is het mogelijk er bij het ontwerpen rekening mee te houden.
- H. Uiterwijk and T. Vallen (2003). Test bias and differential item functioning: A study on the suitability of the cito primary education final test for second generation immigrant students in The Netherlands. Studies in Educational Evaluation, 29, 129-143. [niet gezien, moet ik nog zien te veroveren.]
Richtlijnen - Standards

1999 Standards for Educational and Psychological Testing. site, table of contents, bibliografie
Wayne J. Camara (2007). Standards for Educational and Psychological Testing: Influence in Assessment Development and Use. The College Board: Unpublished Paper. pdf

K. Bügel en P. F. Sanders (1998). Richtlijnen voor de ontwikkeling van onpartijdige toetsen. Arnhem: Cito. pdf
- Biedt wat de titel belooft, met voorbeelden van toetsvragen die partijdig kunnen zijn, en waarom dat zo is.
Educational Testing Service (2004). ETS international principles for fairness review of assessments. Princeton, NJ: Author. pdf

Richtlijn gebruik diagnostische instrumenten bij etnische minderheden (2005). Sectie Interculturalisatie NIP i.s.m. Landelijke Bureau ter Bestrijding van Rassendiscriminatie (LBR) Prijs: € 5,50

Toepasbaarheid van enkele psychologische tests bij personeelsbeoordeling bij etnische minderheden (2005). Sectie Interculturalisatie NIP i.s.m. Landelijke Bureau ter Bestrijding van Rassendiscriminatie (LBR) Prijs: € 5,50
Combinatiepakket: Richtlijn gebruik diagnostische instrumenten bij etnische minderheden (2005) en Toepasbaarheid van enkele psychologische tests . . . samen voor € 10,00. Bestellen via Art.1, tel. (010) 2010201, fax (010) 2010222 of via www.art1.nl

Cheryl L. Wild and Rohit Ramaswamy (Eds) (2008). Improving testing. Applying process tools and techniques to assure quality. Erlbaum. site

Paul E. Newton (2005): The public understanding of measurement inaccuracy, British Educational Research Journal, 31:4, 419-442 abstract

H. Kuhlemeier, F. Kleintjes en H. van den Bergh (2001). Effect van toetsvorm en vraagtype op de moeilijkheid van de afsluitingstoetsen basisvorming Een toepassing van multiniveau analyse met random kruisclassificatie. Pedagogische Studiën, 78, 197- . samenvattingen 2001
- In dit artikel rapporteren wij over een secondaire analyse van de invloed van de toets, de toetsvorm en het vraagtype op de prestaties van leerlingen in de eerste fase van het voortgezet onderwijs. Ten aanzien van de toetsvorm onderscheiden wij 'gewone' schriftelijke toetsen en zogeheten praktijktoetsen. Praktijktoetsen worden gekenmerkt door tenminste enkele van de volgende kenmerken (vgl. Linn & Baker, 1996): de vraag of probleemstelling is open, de opdracht is realistisch en min of meer authentiek, de opdracht vereist praktisch handelen, de opdracht vereist complexe vaardigheden en hogere denkprocessen, de leerling integreert leerstof uit verschillende vakgebieden en/of de toetsscore berust op observatie van leerlinggedrag en/of beoordeling van leerlingproducten (Sluijter e.a., 1996).
  197
  Sluijter, C., Kleintjes, F.G.M., Schalk, H.H., Roosmalen, W. van, Hermans, P.H.L., & Bogaerts, C.A.M.J. (1996). De constructie van beoordelingsschalen bij afsluitingstoetsen voor de basisvorming. (Onderzoeksrapporten algemeen voortgezet onderwijs). Arnhem: Instituut voor Toetsontwikkeling.
J. B. Kuhlemeier, E. J. J. Kremers & F. G. M. Kleintjes. Gebruik en moeilijkheidsgraad van de eerste generatie afsluitingstoetsen basisvorming in het schooljaar 1994/95 / J.B. Kuhlemeier, E.J.J. Kremers en F.G.M. Kleintjes. - Arnhem : Cito, 1996. - 54 p. : Niet beschikbaar op website Cito

Hans Kuhlemeier, Melanie Steentjes en Frans Kleintjes (2003). De gelijkwaardigheid van open en meerkeuzevragen bij wiskunde. Effect van vraagtype en scoringswijze op gemeten vaardigheden, betrouwbaarheid, moeilijkheid en afnametijd. Arnhem: Cito. http://www.fi.uu.nl/wiskrant/bij_de_nummers/Bijlagen/ 23.2/rapport%20onderzoek%20vraagtypen%20bij%20wiskunde.pdf [gebroken link? 1-2009. Vraag mij de pdf, b.w.]
- “Wij kunnen niet uitsluiten dat de veronderstelde verschillen tussen open en meerkeuzevragen duidelijker waren opgetreden als wij bijvoorbeeld gekozen hadden voor eenvoudige rekenopgaven. Nader onderzoek zou hierover meer uitsluitsel kunnen geven.”
- Met lange literatuurlijst.
Michael E. Martinez (1999). Cognition and the question of test item format. Educational Psychologist, 34, 207-218 abstract

Randy Elliott Bennett and William C. Ward (Eds.) (1993). Construction versus choice in cognitive measurement. Issues in constructed response, performance testing, and portfolio assessment. Hillsdale, New Jersey: Lawrence Erlbaum. questia

J. Roeleveld (2002). De kwaliteit van het basisonderwijs: dalen de Citoscores? Pedagogische Studiën, 79, 389- . samenvatting (.doc)
Een interessante stelling van Jaap Dronkers is dat het opleidingsniveau van ouders sterk is gestegen, en dat zou zich moeten vertalen in een stijging van scores op de Cito Eindtoets Basisonderwijs. Als die stijging er niet blijkt te zijn, is dat uiting van een verkapte daling van scores. Het kan natuurlijk ook nog zijn dat de equivaleringsmethoden die het Cito gebruikt naïef zijn op het punt van maatschappelijk relevante ontwikkelingen (veranderingen in deelname van scholen; aandeel leerlingen met Nederlands als tweede taal; opleidingsniveau van ouders), maar ik zie niet voor me hoe dat zou kunnen (de kern is immers het gebruik van ankeritems; als er een trend is, moet dat ook in de scores op ankeritems tot uitdrukking komen). Roeleveld gaat hier achteraan jagen, aan de hand van de gemiddelde citoscores 1995, 1997, 1999 en 2001, en de testresultaten in het PRIMA-cohort (taal, rekenen [de rekentoets is tussentijds veranderd], abstract IQ). De vergelijking tussen Cito-scores en PRIMA-scores is een balands-methode, die niet zomaar geschikt is om een werkelijke achteruitgang in bijvoorbeeld rekenprestaties te kunnen vinden (zoals de PPON wel doet, in de meting van 2004, waar rekenvaardigheid dramatisch gedaald blijkt te zijn); ook speelt in de balansmethode van Roeleveld mogelijk een storende rol dat het Cito waarschijnlijk ook weer betrokken is bij de ontwikkeling van de PRIMA-toetsen taal en rekenen (Roeleveld zal daar wel iets over schrijven, neem ik aan). Het onderzoek van Roeleveld verdient het om nauwkeurig bestudeerd te worden. De literatuur waarop hij aanhaakt is eveneens van belang. Voorlopig houd ik het bij scannen van de conclusies. De analyses van Roeleveld zijn ook van belang voor de beantwoording van de stelling dat de rekentoets-3F van het Cito vooral verschillen in intellectuele capaciteiten meet, zie bijvoorbeeld capaciteiten_in_contexten.htm.
- Het verschil in trends tussen de diverse toetsen kan verschillende oorzaken hebben. Zoals gezegd, is de PRIMA-rekentoets in de afgelopen jaren gewijzigd, maar de PRIMAtaaltoets en de testreeksen (IQ-toetsen) zijn identiek gebleven over de vier achtereenvolgende PRIMA-metingen. Het is zeer onwaarschijnlijk dat stijgende scores op die toetsen komen doordat scholen hun leerlingen speciaal trainen voor die toetsen (teaching to the test) of doordat leerlingen meer geholpen worden bij de afnames. We mogen aannemen dat de stijging wel degelijk wijst op toenemende kennis en vaardigheden bij de leerlingen.
  
  ( . . ) We zouden willen aanbevelen om uitspraken over de kwaliteit van het basisonderwijs in Nederland niet louter te baseren op trends over slechts enkele meetmomenten in gemiddelde scores op de eindtoets basisonderwijs van het Cito, maar om daar meerdere indicatoren gemeten over een groter aantal jaren voor te gebruiken.
  blz. 401
The effects of test translation on young English learners’ mathematics performance. Educational Researcher, 39, #8, 582-590. abstract

Glenn L. Rowley (1974). Which examinees are most favoured by the use of multiple choice tests? Journal of Educational Measurement, 11. abstract.

Thomas Haladyna, Susan Bobbit Nolen & Nancy S. Haas (1992). Raising Standardized Achievement Test Scores and the Origins of Test Score Pollution. Educational Researcher, 20, #5: 2 first paeg

Cito-cursus voor achtstegroepers in herfstvakantie

vrijdag 22 oktober 2010 | 16:50 | Laatst bijgewerkt op: vrijdag 22 oktober 2010 | 16:53

BREDA - Leerlingen uit groep acht van de basisschool die willen oefenen met het maken van de cito-toets, kunnen deze herfstvakantie een speciale training volgen van de Stichting Kennisplein Breda. Dat non-profit studiebegeleidingsinstituut biedt van dinsdag tot en met donderdag op de Heerbaan 220 een 'cito-driedaagse' aan. Tussen 10.00 en 14.30 uur worden deelnemers getraind in het maken van de toetsen. Als extraatje wordt woendag na de lessen een uurtje gebowld.

Meer info: www.stichtingkennisplein.nl

abstract

Kamerbrief over verantwoording aanbieders alternatieve eindtoets PO (8 september 2014). pdf

Dossier 33157 Eindtoetsen basisonderwijs zoek.officielebekendmakingen.nl/dossier/33157

H. Kuhlemeier, F. Kleintjes en H. van den Bergh / pag. 197 Effect van toetsvorm en vraagtype op de moeilijkheid van de afsluitingstoetsen basisvorming: Een toepassing van multiniveau analyse met random kruisclassificatie http://www.vorsite.nl/content/bestanden/ps_3_2001_totaal.pdf

J. B. Kuhlemeier, E. J. J. Kremers & F. G. M. Kleintjes (1996). Gebruik en moeilijkheidsgraad van de eerste generatie afsluitingstoetsen basisvorming in het schooljaar 1994/95 / J. B. Kuhlemeier, E .J. J. Kremers en F. G. M. Kleintjes. - Arnhem: Cito. - 54 p. : Niet beschikbaar op website Cito

H. Kuhlemeier & H. van den Bergh (1996). De factorstructuur van schrijfvaardigheid: een toepassing van multilevel analyse. TOR 21, 133-150.

J. B. Kuhlemeier (1996). Taalvaardigheid, taalactiviteiten en taalattituden. Proefschrift UvA. Arnhem: Cito. Besproken in TOR 1997, 22, 302-308 door Gert Rijlaarsdam.

Wendy McColskey & Mark R. Leary (1985). Differential effects of norm-referenced and self-referenced feedback of performance expectancies, attributions, and motivation. Contemporary Educational Psychology, 10, 275-284. abstract
Raakt aan de ethiek van leerlingvolgsystemen die werken met landelijke normen.
- When feedback is provided to students in a norm-referenced manner that compares the individual's performance to that of others, people who perform poorly tend to attribute their failures to lack of ability, expect to perform poorly in the future, and demonstrate decreased motivation on subsequent tasks.
  from the abstract
- See also Robert Coe (1988). Can feedback improve teaching? A review of the social science literature with a view to identifying the conditions under which giving feedback to teachers will result in improved performance. Research papers in Education, 13, 43-66. abstract
- R. Butler (1988). Enhancing and undermining intrinsic motivations: the effects of task-involving and ego-involving evaluation on interest and performance. British Journal of Educational Psychology, 58, 1-14. abstract paywalled
Cito-werkgroep Wiskunde A (1988). Wiskunde A: doelgericht toetsen. Leerdoelen en voorbeeldopgaven verzorgd door het Cito. Wolters-Noordhoff abstract

SLO (1984). Rekening houdend met . . . wiskunde. geen isbn, geen auteur. Bedankt worden o.a. Brinkman, Van den Brink, Vredenduin, Freudenthal, Terwel, Vedder voor meelezen.
Een product van de club van Freudenthal, nu deels ondergebracht bij SLO. Typisch realistisch rekenen. Bijzonder: blz. 102-105 kopie van een eindtoets basisonderwijs van het Cito, mogelijk die van 1983 of 1984 (of toch enkele jaren eerder?) rekentaak 1 en 2. Vooral contextopgaven in dit boek, realistisch rekenen ten voeten uit.

H. Jansen; F. Goffree (red.) (1989). Nanda, lerares wiskunde. VALO.
Bundel van stukjes die bijv. in de Wiskrant zijn verschenen. Nanda is Nanda Querelle, tal van functies bekleed, vooral interesse voor ontwerpen van wiskundevragen (lid CEVO geweest). Kan best wel interessant zijn.

Herman Wieberdink en Heleen Kuster (6 juni 2011). Cito bepaalt niet wat goed onderwijs is. de Volkskrant artikel
Zie ook mijn blog (ook al staat mijn naam er niet boven) hier.

Eveline van Dijck (1-9-1983). De koning van de multiple choice drs. J. W. Solberg: Sommige leerlingen hebben nu eenmaal meer pech dan andere. NRC Handelsblad Delpher [In dit artikel ook een kader met de 'ijsbeervraag' uit het biologie-examen 1980.Waarover een ingezonden brief:
- 31. Een van de aanpassingen van een ijsbeer aan het leven in het poolgebied is de lichte kleur van zijn vacht.
  Als voordelen die deze vachtkleur hem biedt worden genoemd:
  1. als de beer op jacht is, valt deze niet erg op, door de lichte vachtkleur koelt de beer niet zo sterk af door uitstraling,
  2. door de lichte vachtkleur kan de beer goed van de zonnewarmte profiteren.
    
    Welke daarvan is (zijn) juist?
    A alleen 1
    B alleen 3
    C alleen 1 en 2
    D 1, 2 en 3
    
    Over deze opgave uit de biologie-examens vwo in 1980 is veel te doen geweest. Zij leidde zelfs tot vragen in de Tweede Kamer. Het incident ging uiteindelijk het CITO-jaarverslag in onder de titel 'De ijsbeer, een koude drukte met veel uitstraling'. Wat wil het geval? Voor het juiste antwoord moest de leerling beredeneren dat door de lichte vachtkleur de beer niet zo sterk afkoelt. Dit stoelt op het fysische principe dat donkergekleurde objecten beter warmte uitstralen dan lichtgekleurde. Na het examen kwamen er vragen in de Kamer over de juistheid van deze vraag. De staatssecretaris van onderwijs antwoordde dat in het algemeen het fysische principe correct is, maar dat in het poolgebied een verschil in warmteafgifte tussen een wit en een donker object van 37 graden Celsius nauwelijks meetbaar is. Waarbij werd aangetekend dat dergelijke gedetailleerde kennis niet bij de leerlingen verondersteld mag worden. Daarom werd besloten om behalve antwoord C ook alternatief A goed te keuren. Hierdoor ging bij 769? kandidaten de score met een punt omhoog en daalde het percentage onvoldoenden van 23 pct naar 20 pct.
    kader bij het interviw met Solberg
Ijsbeer Ter gelegenheid van zijn afscheid als directeur van het Centraal Instituut voor Toetsontwikkeling stond drs. J. W. Solberg in NRC Handelsblad van 1 september een interview toe. Tijdens dat interview is kennelijk de vraag gesteld of er wel eens iets goed mis gaat met een CITO-examen en daarbij is dan de ijsbeer-vraag in het biologie-examen voor VWO van 1980 ter sprake gekomen. In een kadertje bij het interview is de ijsbeervraag afgedrukt mét een aan het CITO-examenverslag van 1980 ontleende verhandeling met als bondige samenvatting van de kritiek op het CITO-produkt: koude drukte. Er wordt aldus de indruk gewekt dat wel enige jaren in de geschiedenis moet worden teruggegaan om een CITO-misser te vinden en dat er bij nader inzien toch eigenlijk niets mis was. Er is evenwel jaarlijks het een en ander mis en er was ook met die ijsbeer wel degelijk iets mis. De vachtkleur heeft geen invloed op de warmte-uitstraling van zoogdieren. Dat heeft prof. dr. R. Braams in aansluiting op zijn vragen als lid van de Tweede Kamer aan de ministers van onderwijs en economische zaken destijds in artikelen in het mededelingenblad van de Nederlandse Vereniging voor het Onderwijs in de Natuurwetenschappen van de Nederlandse Vereniging voor het Onderwijs in de Natuurwetenschappen en in het Vakblad voor Biologen met argumenten onderstreept. Deze artikelen zijn uiteraard bij het CITO bekend. Het verzwijgen ervan in een gesprek met een journalist geeft blijk van geringe ontvankelijkheid voor kritiek bij het CITO. Gebrek aan ontvankelijkheid voor kritiek blijkt ook als de heer Solberg zich verdedigt tegen critici die zich beroepen op een nieuwe theorie: "Zoiets is niet eerlijk omdat je weet dat in de scholen die theorie nog lang niet is doorgedrongen." Het is wat wonderlijk dat eerlijkheid hier staat en valt met wat "je" weet over "de" scholen, maar beslist opvallend is het zwijgen over examencritici die zich vergeefs beroepen op bijvoorbeeld door examen-autoriteiten geschreven leerboeken of op door het CITO geproduceerde statistische gegevens. De reputatie van het CITO gaat het personeel van dat instituut uiteraard ter harte. Die reputatie is op den duur waarschijnlijk meer gebaat bij een welwillende dan bij een star defensieve houding tegenover kritiek. Om te voorkomen dat in een volgend jaar de Tweede Kamer zich met bijvoorbeeld een ezel moet bezighouden, zou het goed zijn om in 1983 maar volmondig te erkennen dat de ijsbeer in 1980 niet deugde.
drs. J. L. Sikkema, Diepenveen.
NRC Handelsblad 06-10-1983 Delpher

december 2019 \ contact ben at at at benwilbrink.nl
http://www.benwilbrink.nl/projecten/cito_ontwerp_toetsvragen.htm http://goo.gl/g0Hjz

Zijn de toetsvragen van het Cito kwalitatief op orde?

Werkdocument

Ben Wilbrink

Inhoud

schets voor een opzet

websites

sleutelpublicaties

literatuur

Spellingtoets van het Cito

Richtlijnen - Standards

Cito-cursus voor achtstegroepers in herfstvakantie