Eerlijk rekenen - Eerlijke wiskunde

Ben Wilbrink


Het aanvankelijke idee voor deze webpagina is ingehaald door latere ontwikkelingen. Zie voor de taligheid van het rekenonderwijs (en dus ook de toetsen): tal.htm in het rekenproject, en voor de omstreden kwaliteit van de Cito- Eindtoets Basisonderwijs cito_ontwerp_toetsvragen.htm


Dit is een project op een gevoelig onderwerp. Het gaat op deze webpagina vooral om eerlijkheid van rekenopgaven van landelijke toetsen, zoals de Cito-toets Basisonderwijs, en dan vooral de vraag of leerlingen met Nederlands als tweede taal op deze toetsen wel hun rekenvaardigheden even goed kunnen tonen als de overige leerlingen.

Deze specifieke vraag naar de eerlijkheid van rekenopgaven is opgekomen omdat voor veel rekenopgaven veel tekst gelezen en begrepen moet worden. Dergelijke opgaven noemden we (heel) vroeger redactiesommen, de Engelse term is word problems (zie wordproblems.htm). In het realistisch rekenen, dat nu vrijwel overal op basisscholen wordt gedaan, heten dat sommen met context. Net als bij de 'gewone' redactiesommen zijn de meeste contexten er met de haren bijgesleept, dat wil zeggen dat de context is bedacht bij een gegeven rekensom, in plaats van omgekeerd. Geen wonder dat contextopgaven vaak gekunsteld zijn, wat het voor leerlingen met Nederlands als tweede taal er niet eenvoudiger op maakt. Voor een illustratie van die gekunsteldheid van context-opgaven, zie de opgaven in de national Rekentoets, dat zijn opgaven zoals voorkomen in de toetsen die kandidaten voor de Pabo moeten afleggen: nationalerekentoets2007.htm

Gerelateerd aan dat realistisch rekenen is een ander verschijnsel dat steeds meer mensen steeds meer zorgen baart: het kolomrekenen dat in deze rekenmethoden een prominente plaats heeft. Deze opgaven hebben overigens ook vaak een context meegekregen, wat voor cijfermatig rekenen een opmerkelijke didactische methode is. Er zijn mogelijk met dat kolomrekenen toch ernstige problemen aan de orde, gezien de rekenresultaten in de PPON-studie 2004 vergeleken met die van 1997 (Kees van Putten, o.a. pdf). Het vermoeden bestaat bij sommigen dat die problemen vooral de zwakkere leerlingen raken, terwijl het juist de bedoeling van de weg via het kolomrekenen was om juist zwakkere leerlingen daarmee beter te bedienen. Aan dit onderwerp is een afzonderlijke pagina gewijd realistisch_kolomrekenen.htm, zie daar.




Allochtone leerling vaak onderschat

Zo kopt De Volkskrant (13 mei 2008) op de voorpagina. Onderzoek van het IMES (UvA, pdf), onderdeel van een internationaal onderzoek in acht landen, laat zien dat uit de tweede generatie nieuwe Nederlanders een stevige elite is gevormd, een kwart van deze generatie heeft een hogere opleiding. Het zorgelijke is dat zij voor dit succes jaren langer hebben moeten studeren dan nodig, omdat hun capaciteiten niet tijdig zijn onderkend, en het onderwijsstelsel na de bezuigingsingrepen van Jo Ritzen (niet meer 'stapelen') herstel van onterechte eerdere keuzen heeft bemoeilijkt.


Over het probleem in de box gaat deze pagina dus. Geen kattenpis.


Outline


Over de bedoelde onpartijdigheid van de Cito Eindtoets Basisonderwijs is regelmatig onderzoek gedaan, onder andere door Uiterwijk (1994) en Van Schilt-Mol (2007).




Het abstracte of symbolische karakter van rekenen en wiskunde


Algebra


Een uitstekende ingang is het artikel van Paul Drijvers (2006): Context, abstractie en vaardigheid in schoolalgebra pdf. De context is nog lang niet aan de orde, alleen de vraag wat de abstractheid van algebra precies is, wat is daarover bekend.





Intelligentie


Het lemma intelligentie in de Nederlandse WikipediA is kort http://nl.wikipedia.org/wiki/Intelligentie, in de Engelse uitgebreider: http://en.wikipedia.org/wiki/Intelligence. Om niet te verdwalen kan het werk van Robert Sternberg als referentie dienen, en bijvoorbeeld niet dat van Howard Gardner. Daarbinnen is het de psychometrische benadering die specifiek relevant is voor alles wat met beoordelen in het onderwijs heeft te maken, vandaar mijn voorkeur voor Sternberg boven Gardner. Overigens werken beide heren ook vruchtbaar samen. Publicaties van Sternberg zijn deels online beschikbaar in questia, maar pas op: Sternberg is mogelijk de meest productieve psycholoog ooit, als het op publiceren aankomt.

Sternberg heeft niet veel op met klassieke indelingen als verbaal versus rekenen, maar dat is juist een reden om hem als referentie te nemen: hoe kenschetst hij die klassieke indeling, en waarin schiet die dan tekort? Uiteindelijk gaat het erom helder te krijgen in hoeverre er duidelijk sprake is van verschillende domeinen, of wat dan ook, van intellectueel functioneren, en hoe die zich verhouden tot taal en rekenen in het (basis)onderwijs, enzovoort.



Taal en rekenen


Deze tekst is verplaatst naar de taal-pagina in het rekenproject: taal.htm



Relatie tussen prestatietoetsen en intelligentietests


Kijk, Sternberg kiest de positie dat achievement tests zoals in Amerika de Scholastic Achievement Test (SAT, overgang naar hoger onderwijs), in Nederland de Cito Eindtoets Basisonderwijs (overgang naar VO), intelligentietests zijn. Dat is helder, maar wat implicieert dat voor de toetspraktijk?


Sternberg's creatieve, analytische en practische capaciteiten

"... when students are taught in a way that fits how they think, they do better in school. Children with creative and practical abilities, who are almost never taught or assessed in a way that matches their pattern of abilities, may be at a disadvantage in course after course, year after year.

Sternberg, 2008, p. 154-155


Popham vraag 4.12
A 3rd Grade Mathematics Item


"This item measures both inherited quantitative aptitude and inherited verbal aptitude. Notice that to figure out the 'secret number.' a 3rd grader needs to mentally keep track of the statements above the circle-square-triangle figure. Kids who were born with lots of number-smarts will have an easier time with this sort of mental place-holding task than will kids who were born with lesser number-smarts. Moreover, assuming equivalent number-smarts, children who can keep track of the item's verbal components—that is, children who were born with more word-smarts—will most likely do better on this item than will children who have trouble remembering the item's verbal directives.

And let me ask you this: How important is it for human beings to develop the skill of finding secret numbers in overlapping geometric shapes? I can't think of a single time in my life when this real-worls quandary presented itself to me. Don't you think teachers ought to be focusing more useful material? But, because of this item's heavy reliance on inherited academic aptitudes, you can be sure that it will help create a delightfully spread-out set of test scores."

Popham (2001), p. 68-69. Popham haalt zijn voorbeelden uit Amerikaanse toetsen, en wijzigt ze iets om daar geen problemen met uitgevers mee te krijgen. Hij kan dus niet uit de doeken doen uit welke toets dit item precies afkomstig is.


James Popham, geciteerd in de box hierboven, is een van 's werelds leidende experts op het gebied van toetsen, heeft kilo's boter op zijn hoofd waar het gaat om de kwaadaardige invloed van gestandaardiseerde toetsen op de kwaliteit van het onderwijs dat leerlingen krijgen, en doet daarvoor boete in dit en een reeks andere recente boeken. Bij zijn bezoek aan Nederland in 1992 (de ECER-conferentie in Twente) maakte hij zich al sterk voor het ontwerpen van toetsen op zo'n manier dat teaching-to-the-test toch juist gunstig voor de ontwikkeling van de leerlingen zou moeten uitpakken. Met de verdergaande ontwikkeling van high stakes testing en alle misstanden die dat met zich meebrengt, is hij meer en meer gealarmeerd geraakt over de ernst van die misstanden. Dat is er met de No-Child-Left-Behind Act van George W. Bush niet minder op geworden: die wet heeft geleid tot verdubbeling van de omzet van de Amerikaanse Cito's (zie bv. Wild & Ramaswamy, 2008, een publicatie uit de hoek van die Cito's, waarin overigens van de zorgen van mensen als Popham geen spoor is bekennen).

Ik wil met dit voorbeeld van Popham aangeven dat kritische analyses van afzonderlijke items belangrijk zijn. Popham bekent er zelf over dat hij pas laat in zijn loopbaan heeft ingezien hoe belangrijk dergelijke kritische analyses zijn. Dat het niet gaat om een enkel verdwaald item dat mogelijk ondeugdelijk is in overigens smetteloze toetsen, geeft hij in hetzelfde boek aan in een telling van items gevoelig voor sociale status die hij heeft uitgevoerd over vijf belangrijke landelijke gestandaardiseerde toetsen voor twee verschillende jaarklassen. De onderstaande box geeft de uitkomsten, ik laat het onvertaald.


=============================================
Percentages of items judged to be linked to 
socioeconomic status 
--------------------------------------------
SUBJECT                   % SES ITEMS	
Reading                      15%
Language arts                65%
Mathematics                   5%
Science                      45%
Social Studies               45%
--------------------------------------------

Popham (2001) p. 65, figuur 4.10



Kwaliteitseisen voor tests en test items


De scores op een intelligentietest moeten iets zeggen over intellectuele capaciteiten, en niet over de mate waarin iemand het Nederlands beheerst, of de Nederlandse cultuur kent, om maar eens een dwarsstraat te noemen. Dit kan precies worden gemaakt, de sleutelpublicatie is hier de 'Standards' van de APA, en de Nederlandse 'Richtlijnen' van het NIP. Over alles is discussie mogelijk, en dat is vooral ook zo over intelligentietests, ik maak daarvoor gebruik van zowel het werk van Sternberg, als de publicaties van Borsboom, Mellenbergh en Van Heerden in recente jaren, gebundeld in het proefschrift van Borsboom.



Eerlijkheid


De eerlijkheid van een test of test item tegenover bijzondere groepen in de samenleving, zoals gehandicapten, minderheden, is een moeilijk begrip, maar het is aan de hand van de literatuur toch bijzonder goed af te bakenen wat in een bepaald casus eerlijk is, en wat niet, en hoe dat is vast te stellen. Op item-niveau is er bijvoorbeeld het proefschrift van Frank Kok, om maar in Nederland te blijven.

Als de Cito Eindtoets als intelligentietest is te beschouwen, is er dus een complete methodologie beschikbaar om de eerlijkheid van onderdelen van die toets, zeg het gedeelte rekenen, te onderzoeken. Het Cito doet dat onderzoek uiteraard, de vraag is hoe dat onderzoek is ingericht, wat de resultaten daarvan zijn, en hoe een en ander publiek bekend wordt gemaakt.


 Educational Measurement: Issues and Practice, 15 #4, 1996

Have Changes in the SAT Affected Women's Mathematics performance? (pages 5–9)
Nancy Burton
Grades or Scores: Predicting Future College Mathematics Peflormance (pages 10–14)
Cathy Kessel and Marcia C. Linn
Examing Gender DIF on a Multiplechoice Test of Mathematics: A Confirmatory Approach (pages 15–20)
Katherine E. Ryan and Meichu Fan
GendermRelated Differential Item Functioning on a Middle-School Mathematics Peformance Assessment (pages 21–27)
Suzanne Lane, Ning Wang and Maria Magone


Kadriye Ercikan, Rubab Arim, Danielle Law, Jose Domene & Serge Lacroix(2010). Application of Think Aloud Protocols for Examining and Confirming Sources of Differential Item Functioning Identified by Expert Reviews. Educational Measurement: Issues and Practice Summer 2010, Vol. 29, No. 2, pp. 24–35. abstract


Sandip Sinharay, Neil J. Dorans, and Longjuan Liang (2011). First Language of Test Takers and Fairness Assessment Procedures. Educational Measurement: Issues and Practice Summer 2011, Vol. 30, No. 2, pp. 25–35 abstract

Maria Veronica Santelices & Mark Wilson (2009). Unfair treatment? The case of Freedle, the SAT, and the standardization approach to differential item functioning. Harvard Educational Review, 80 abstract Washington Post ["College Board spokeswoman Kathleen Steinberg said the Harvard Educational Review declined the College Board's offer of a response to the paper, but plans to publish a criticism of the paper by ETS researcher Neil Dorans, as well as a response by Freedle himself."]; The Atlantic Monthly; College Board response [nit-picking, b.w.; ben benieuwd naar de reactie van de auteurs zelf]

Keena Arbuthnot (2009). The effects of stereotype threat on standardized mathematics test performance and cognitive processing. Harvard Educational review, 79, 448-471.