Beleid bij tentamens en examens

Deze tekst in het congresboek is moeizaam geformuleerd. Op basis hiervan had ik in 1981 voor de voordracht een vlottere tekst en iets andere figuren voor de overhoofdvooruitgooier geschreven. Die vlotte tekst volgt na de gortdroge congresboektekst. BW, 2023

Hoe worden de examens geregeld? Waar wordt bij dit tentamen de grens zakken-slagen gelegd? Over deze beleidsvragen handelt dit artikel. Ik ga er daarbij vanuit dat het de bedoeling is om op deze vragen antwoorden te vinden die in zekere zin optimaal zijn. Het 'in zekere zin' is door het beleid, door de docent of de vakgroep etcetera, concreet in te vullen: bijvoorbeeld in termen van een zo goed mogelijk studieresultaat in zo kort mogelijke tijd. In het korte bestek van dit artikel is het niet mogelijk om bruikbare technieken systematisch te presenteren en uit te werken. Ik hoop met een aantal voorbeelden, en in een uiteenzetting die een nogal samenvattend karakter heeft, duidelijk te maken dat er potentieel krachtige technieken beschikbaar zijn die tot een verhoogde doorzichtigheid en efficiëncy van het onderwijsgebeuren kunnen leiden. Het beleid bij tentamen en examens zoekt vanzelfsprekend steun bij beschikbare gegevens: bijvoorbeeld zak-slaag cijfers per vak of per examen. Doorgaans zijn dat de gegevens die op een of andere manier tóch al beschikbaar zijn in de studentenadministratie. Het probleem is dan: hoe interpreteer je dergelijke gegevens in termen van beleids-alternatieven? Voor interpretatie van gegevens is tenminste een theorie nodig, hoe gebrekkig die op zich ook mag zijn. De gegevens spreken nimmer voor zich zelf. Een hoog percentage gezakten voor een

bepaald studieonderdeel zegt op zich nog niets over wat er precies aan de hand is: het kan zijn dat het tentamen te moeilijk is, dat de stof te omvangrijk is; maar het is op voorhand even goed mogelijk dat het tentamen te makkelijk is, zodat veel studenten proberen het op een koopje te doen. Overwegingen van het laatste soort vormen een mini-theorie, een veronderstelling, die richting kan geven aan de verdere activiteiten. Wie vervolgens extra gegevens gaat verzamelen, zal dat met de nodige omzichtigheid moeten doen. Gegevens die alleen maar een vooropgezette mening kunnen bevestigen, zijn zinloos. Bijvoorbeeld: veronderstel dat een docent wil weten waarom studenten voor zijn tentamen zakken, en dat hij daarom na de tentamenafname het volgende aan de studenten vraagt:

Wanneer blijkt dat u gezakt bent voor dit tentamen, hoe komt dat dan?

te laat met de voorbereiding begonnen,
het tentamen was moeilijker dan verwacht,
door persoonlijke omstandigheden heb ik mij onvoldoende kunnen voorbereiden.

De vragensteller is hier naëef te werk gegaan: vrij associërend op het begrip 'zakken' zijn mogelijke oorzaken bedacht die louter in de sfeer van de pathologie liggen. Achter het symptoom 'zakken' wordt inadequaat studeergedrag (stilzwijgend) verondersteld. Zoals de vraag en de antwoorden geformuleerd zijn, kan er niets anders uit komen dan een bevestiging van de onuitgesproken vóóronderstelling: de student wordt gedwongen tot het aangeven van een 'pathologische' oorzaak, óók als die er in feite niet zou zijn. De twee mogelijke uitslagen, zakken of slagen, worden teruggeprojecteerd naar waar de student zich in de voorbereiding op gericht zou hebben. Maar zolang de student nog met de voorbereiding bezig is, gaat het om de kans om te slagen, en die kans wordt hoger naarmate er meer tijd en energie in de voorbereiding geënvesteerd wordt. Een beter passende, en meer informatieve vraagstelling zou de volgende kunnen zijn (ook met sheet geprojecteerd):

Naar welke slaagkans hebt U in Uw voorbereiding toegewerkt?

100 %
80 %
60 %
lager.

Denkt U dat Uw slaagkans lager / gelijk / hoger is dan waar U in Uw voorbereiding naar gestreefd hebt?

(Deze vragen worden voorafgaand aan het tentamen gesteld). Wie een lagere slaagkans denkt te hebben dan nagestreefd is, zal op één of andere wijze bij de voorbereiding op het tentamen gehinderd zijn, mogelijk door een te late start, onderschatting van de moeilijkheid van de stof, persoonlijke omstandigheden, en dergelijke. Zo nodig kan ook dáárnaar gevraagd worden.

Een klein beetje reflectie leidt al tot een sterk verbeterde vraagstelling. Een meer systematische reflectie, op grond van theorie of een uitgesproken filosofie, kan de interpreteerbare gegevens opleveren die bij het beleid zo hard nodig zijn.

Studenten laten zich niet passief beoordelen, maar zullen er in hun studeergedrag op vooruitlopen.

Het vaststellen hoe hoog het kennisniveau van de student is., is niet eenzelfde soort meetprocedure als het met een peilstok bepalen van het niveau in een (kennis)tank. De beoordeelde student heeft groot belang bij de uitslag, en zal die uitslag dan ook naar eigen hand proberen te zetten. Zakken of slagen zijn voor de student té belangrijk om van het toeval af te laten hangen. De student weet voor zichzelf welke slaagkans hij of zij ongeveer wil bereiken, en zal daar in de voorbereiding op het tentamen dan ook naartoe werken. In zekere zin is een 'goed' tentamen dát tentamen waarbij de student inderdaad de score behaalt waar in de voorbereiding op gemikt is, of waar de student de nagestreefde slaagkans ook realiseert[sic].

Veronderstel je dat studenten extra tijd en energie investeren in de voorbereiding net zo lang totdat ze denken de nagestreefde slaagkans ongeveer bereikt te hebben, dan veronderstel je ook dat studenten in staat zijn om die slaagkans redelijk te voorspellen. Het kunnen voorspellen van tentamenresultaten is ook een voorwaarde voor het behoorlijk kunnen functioneren van het onderwijs: zouden studenten niet kunnen voorspellen, dan zouden ze zich in den blinde op tentamens moeten voorbereiden, en zou het onderwijs chaotisch functioneren.

In een onderzoek van Hoogstraten en Vorst (1980) blijken studenten in ongeveer 50 tot 70% van de gevallen hun 'zakken' of 'slagen' juist te voorspellen. De onderzoekers concluderen daaruit dat studenten 'slechts in zeer beperkte mate' in staat zijn de uitslag van tentamens te voorspellen. Zou die conclusie juist zijn, dan betekent dat ook dat studenten nogal chaotisch moeten werken (of dat het onderwijs chaotisch functioneert), Zo'n zwartgallig beeld over het onderwijs is niet aantrekkelijk. Kan dit onderzoeksresultaat anders geïnterpreteerd worden? Mijns inziens: ja. Die alternatieve verklaring ligt voor de hand voor wie de inleidende paragraaf goed gelezen heeft: er is onderzocht of studenten hun zakken of slagen konden voorspellen, en niet of ze hun slaagkans juist konden inschatten. Wie het voorspellen van zakken/slagen onderzoekt, moet er rekening mee houden dat het maximale succespercentage voor die voorspelling niet gelijk is aan 100%.

Neem een groep studenten in gedachten waarvan bekend is dat ze een stofbeheersing hebben van 60%. Laat de zak-slaaggrens op het tentamen eveneens op 60% (goed) gesteld zijn. Statistisch gezien zal de helft van deze groep studenten slagen, de andere helft zakken: voor deze groep studenten is de uitslag 'zakken' of 'slagen' een toevals-resultaat (per definitie). Gevraagd hun uitslag te voorspellen, zal het maximale percentage juiste voorspellingen 50 zijn (statistisch gezien), en dat is gelijk aan het toevalsresultaat.

In werkelijkheid is de stofbeheersing van individuele studenten niet bekend. Maar wanneer voor het tentamen een fors aantal studenten blijkt te zakken, dan zal er een relatief erg grote groep studenten zijn voor voor wie de beste voorspelling van de uitslag 'zakken' of 'slagen' zo'n 50% of 60% succeskans heeft. Zo'n laag percentage betekent dus niet vanzelfsprekend dat studenten hun slaagkansen niet goed kunnen in_ schatten: het is mogelijk de beste schatting die te maken valt.

De individuele student zal er best vaak 'naast' zitten met zijn voorspellingen. Maar voor de groep studenten geldt dat hun tentamenresultaten een tamelijk getrouwe afspiegeling zullen zijn van wat zij ook nagestreefd hebben. (Technisch detail: de spreiding van de tentamenresultaten zal echter een heel stuk groter zijn dan de spreiding tussen studenten m.b.t. het door hen nagestreefde studieresultaat, zie ook Wilbrink 1980b, bijlage D). In deze opvatting worden tentamenresultaten dan ook volstrekt serieus genomen. Bijvoorbeeld: zijn er nogal wat studenten gezakt, dan wordt daar voorshands uit geconcludeerd dat een grote groep studenten een fors risico heeft genomen om voor dit tentamen te zakken, willens en wetens. Natuurlijk, er kunnen soms alternatieve verklaringen zijn, zoals een slechte voorlichting aan studenten, het onvoldoende voorbereid zijn doordat het studieprogramma objectief bezien overladen is, e.d. Zijn dergelijke verklaringen in een bepaald geval niet onaannemelijk, dan moeten ze uiteraard uitgezocht worden, zo mogelijk aan de hand van (te verzamelen) empirische gegevens.

In het denken over onderwijs is het vruchtbaarder ervan uit te gaan dat studenten hun doelen op de meest effectieve wijze trachten te bereiken, dan dat studenten onwillig, onmachtig, en onkundig zijn. Doorstromingsgegevens en studieresultaten wekken oppervlakkig gezien wel eens de indruk dat het laatste waarschijnlijker is dan het eerste.

Het is echter niet onwaarschijnlijk dat het om niet meer dan een oppervlakkige indruk gaat. Tegen onwil en onkunde valt geen aardig beleid te voeren. Wie studenten onwil en gebrek aan capaciteiten toeschrijft, zegt in feite dat het beleid aan deze studenten dan ook geen boodschap hoeft te hebben, en hanteert daarmee een dooddoener. Tegenvallende onderwijsresultaten kunnen ook anders bekeken worden, zoals in de voorgaande paragraaf geïllustreerd. 'Slechte' resultaten volgen waarschijnlijk uit bewust door de studenten gekozen studiestrategieën. Wie zich dan ook de vraag stelt waarom dergelijke strategieën in een bepaald geval voor studenten een zekere mate van 'efficiëntie' kunnen hebben, opent voor zichzelf de mogelijkheid om tot een goed inzicht in de aard van de beoordelingssituatie te komen, en kan op grond van dat inzicht een opbouwend stuk onderwijsbeleid gaan voeren.

De veronderstelling van rationaliteit in het gedrag van de studenten betekent niet dat verondersteld wordt dat alle studenten zich identiek gedragen. Verre van dat. Iedere student brengt eigen doelen, waarden en capaciteiten mee, en daarom zal hij of zij zich ánders gedragen dan veel van de medestudenten, zonder minder 'effectief' in het studiegedrag te zijn. Naast allerhande andere levensdoelen die zijn gedrag leiden, is een belangrijk streven van de (modale?) student om voor zijn tentamens te slagen. Daarbij zal de student proberen om in zo kort mogelijke tijd te slagen: tenslotte zijn er nog wel meer dingen te doen dan voor tentamens te werken. Naast de veronderstelling van voorspelbaarheid van de tentamenuitslag speelt hier ook een rol de mate waarin met een extra besteding van tijd en energie ook een verhoogde slaagkans of een hoger verwacht cijfer bereikt wordt. De laatste veronderstelling klinkt vanzelfsprekend, is ook vanzelfsprekend, maar af en toe worden door onderzoekers van onderwijs uitspraken gedaan die de veronderstelling ondergraven.

Crombag, Gaff en Chang (1975) vonden in een onderzoek in vier verschillende studierichtingen dat studenten met betere studiegewoonten

géén betere studieresultaten boekten dan studenten met slechtere studiegewoonten. En hetzelfde voor beter versus slechter gemotiveerde studenten, en voor relatief méér versus relatief minder intelligente studenten. Aan deze resultaten werd de conclusie verbonden dat studiesucces een kwestie van geluk is, dat al deze relevante factoren kennelijk geen invloed op het studieresultaat hebben, en dat het onderwijs 'dus' chaotisch functioneert en tenminste irrationeel in elkaar steekt. Voordat we meegaan met deze alweer zwartgallige conclusies, en voordat we de stelling dat studenten op effectieve wijze studeren verwerpen, is het aan te raden om na te gaan of ook hier de conclusies wel volgen uit het onderzoek, of er geen alternatieve verklaring is. Om te beginnen hoef je geen groot onderwijskundige te zijn om de stelling overeind te houden dat het investeren van extra tijd zal leiden tot betere (verwachte) studieresultaten. Wanneer harder werkende studenten niet evident betere resultaten boeken dan studenten die het wat kalmer aan doen, moet nagegaan worden of de laatste categorie studenten de kortere tijdsbesteding misschien compenseert door een betere voorkennis, of door groter slimheid, of door een hoger concentratie tijdens de studie.

Een tweede belangrijke mogelijkheid is dat de hoeveelheid bestede tijd in belangrijke mate bepaald wordt door het gekozen streefniveau m.b.t. slaagkans of tentamenresultaat, waarbij die keuze van het streef-niveau wel eens sterk af kan hangen van persoonlijke varëabelen, naast bekwaamheden en studiegewoonten. Kortom: de student kiest zich een streefniveau, en past de tijdbesteding voor de voorbereiding op het tentamen daar zó bij aan dat het gewenste resultaat bereikt kan worden.

Korter: wat voor een individuele student geldt — meer tijd investeren levert hogere verwachting op — hoeft voor verschillen tussen studenten niet op te gaan (correlatie≠causatie). bw 2024

Figuur 1. Hoe het studieresultaat van de student tot stand komt. De pijlen geven de richting van de oorzakelijke relaties aan.

In figuur 1 is het patroon van de beïnvloedende factoren voorgesteld, waarbij de pijlen de richting van de beïnvloeding aangeven. De crux van de uiteenzetting is dat wat voor de individuele student geldt, zich niet hoeft te weerspiegelen in groeps-resultaten, waar verschillen tussen studenten een rol spelen.

Het zal de docent enigszins verdrieten wanneer de studenten er in de eerste plaats naar streven een bepaalde slaagkans voor het tentamen te realiseren, of een bepaald cijfer ervoor te behalen. Het is dan niet

de gemotiveerdheid voor de inhoudelijke kanten van het vak, maar de beloning of het 'civiel effect' van de te behalen studieresultaten, die de studie-inspanning dicteren. Het gaat er de docent in de eerste plaats om belangstelling voor zijn vak te wekken, terwijl het voor de student allereerst van belang is om voor het tentamen over dat vak te slagen in een redelijk tijdsbestek. Het is omwille van een verstandig onderwijsbeleid onontkoombaar met deze discrepantie van doelen van student en docent rekening te houden.

figuur komt de kwaliteit van het gegeven onderwijs niet expliciet voor, maar de vermoedelijke effecten van verschillende mogelijkheden voor het verbeteren van de onderwijskwaliteit kunnen wél uit de figuur afgeleid worden. Wanneer een nieuwe onderwijsmethode geïntroduceerd wordt, waarmee het de student mogelijk wordt gemaakt om in korter tijd zijn gekozen streefniveau te bereiken, dan mag je niet verwachten dat de onderwijsresultaten zullen verbeteren, wél dat de gemiddelde studietijd verkort wordt. Uitzonderingen: wanneer bekend is dat studenten een ernstig tijdgebrek hebben, zodat zij hun gekozen streefniveau doorgaans niet bereiken, dan zal zo'n onderwijsverbetering wél tot verbeterde studieresultaten leiden; wanneer de onderwijsverbetering er toe leidt dat studenten hun streefniveau verhogen, bijvoorbeeld door een verhoogde motivatie voor het vak, dan werkt de onderwijsverbetering ook in de studieresultaten door. Het meest aantrekkelijk zijn dan die onderwijsverbeteringen die direct op het streefniveau van de studenten aangrijpen: Individuele Studie Systemen zijn daar een voorbeeld van. Studenten hebben bij een Individueel Studie Systeem vaak de indruk erg veel tijd geïnvesteerd te hebben; mogelijk ontstaat die indruk doordat het Systeem de student op een hoger streefniveau (als je hier nog van streefniveau zou mogen spreken) zet, dan hij of zij uit eigen vrije wil gekozen zou hebben.

Studenten richten zich in hun studie op die zaken waar het voor hen echt op aan komt, die bijvoorbeeld 'civiel effect' hebben, van belang zijn voor het behoud van de studietoelage, e.d. In het beleid kan er voor gezorgd worden dat wat voor de student op deze wijze van belang is ook hetgeen is waar het in het onderwijs op aan hoort te komen. Werkend vanuit de stelling dat studenten zich rationeel gedragen, moet zo'n beleid ook haalbaar zijn en vruchten af kunnen werpen.

Het bovenstaande is wel een beetje moeizaam geformuleerd. Aan de orde is dat belangen van studenten tegenover die van docenten staan. De Groot hintte er al op in zijn 'Vijven en zessen' 1966. James Coleman ontwikkelde een dynamische methodologie die 'impliciete onderhandeling' tussen beide partijen in beeld kan brengen. Ik kon dat in 1992 uitwerken aan de hand van beschikbare data: https://benwilbrink.nl/publicaties/92ColemanApplicationECER.htm bw 2024

Een examenregeling die voor ieder vak 'voldoende' eist, brengt veel herkansingen met zich mee.

Omdat studenten maar zelden in staat zullen zijn een hoge slaagkans na te streven, ook al zouden ze dat willen, is het duidelijk dat er nogal eens herkanst zal moeten worden. Zakken en herkansen is een kwaad waar de student zelden helemaal onder uit kan. Wie in staat is om doorgaans een slaagkans van 90% te bereiken, mag er statistisch gezien op rekenen één op de tien tentamens te moeten herkansen. Blijkens de zak-slaag percentages uit de studiestatistieken liggen de slaagkansen doorgaans echter heel wat lager dan 90% (daarover straks meer). Zekerheden bestaan er voor de student dan ook maar in beperkte mate: onzekerheden voeren de boventoon. Dat is makkelijk in te zien door je in de situatie van de student in te leven: hij of zij moet slagen, eventueel na herkansing(en), maar kampt daarbij met drie soorten onzekerheden.

1 Het is niet precies bekend welk soort vragen er over de stof gesteld zullen worden, dus ook niet op welke wijze de stof bestudeerd moet worden; de student weet dan ook niet zeker of hij in de voorbereiding de stof wel op de juiste wijze heeft bestudeerd.

2 De student weet slechts bij benadering hoe goed hij of zij de stof beheerst, ook al zou het precies bekend zijn om welk soort vragen het bij dit tentamen gaat.

3 Het tentamen zélf is maar een steekproef: er kan in de beschikbare tijd maar een beperkt aantal vragen over de stof gesteld worden. Bepaalde onderwerpen komen in het geheel niet aan de orde, van andere onderwerpen wordt slechts een bepaald stukje kennis of inzicht getoetst, niet aálles wat over het onderwerp te weten valt. De student kan dus pech of geluk hebben met de vragen die hij of zij heeft te beantwoorden. Door dit steekproefkarakter van het tentamen is de toetsscore niet precies te voorspellen ook al zou je precies weten hoe goed je de stof beheerst. (Technisch: gegeven de ware stofbeheersing is de toetsscore binomiaal verdeeld, zie bijvoorbeeld

De rationeel tewerk gaande student zal van deze noden deugden maken door slaagkansen na te streven die binnen de kortste verwachte tijd (of tegen de geringste kosten van tijd, herkansen etcetera) leiden tot slagen. Dat is wat anders dan slagen met zo weinig mogelijk herkansingen: van de gelegenheid tot het doen van herkansingen wordt gebruik gemaakt door er in de studiestrategie rekening mee te houden. Het moeten herkansen kost tijd en energie, maar dat geldt ook voor het nastreven van extra hoge slaagkansen om dat herkansen uit de weg te gaan. Ergens zal er een evenwichtspunt zijn waar een extra studie-inspanning niet meer een dusdanige verhoging van de slaagkans oplevert dat het de moeite waard is. De student bepaalt dat punt van juist voldoende ('optimale') voorbereiding op intuïtieve wijze, gebruik makend van zijn jarenlange ervaring.

Bovenstaande uiteenzetting kan in exacte wiskundige taal gegoten worden (zie Wilbrink 1978), en laat in die vorm heel interessante berekeningen toe. Zo is het mogelijk om voor verschillende streefniveaus te berekenen wat de statistisch benodigde tijd om (eventueel via herkansingen) te slagen is. De 'benodigde tijd' is een kostenfactor waarin gemakshalve ook alle eventuele andere 'kosten' begrepen kunnen worden, zoals financiële en motivationele kosten verbonden aan het moeten herkansen. In figuur 2 is voor een bepaalde tentamensituatie het functionele verband berekend tussen gekozen streefniveau (studieresultaat waarop gemikt wordt) en de naar statistische verwachting benodigde tijd om onder de gekozen strategie voor het vak te slagen. Dat levert een U-vormige curve op, en dat is begrijpelijk: voor de 'hoge' streefniveaus geldt dat het steeds méér tijd kost om de stofbeheersing nog een extra stukje (procentueel) omhoog te brengen, 'de laatste loodjes wegen het zwaarst'; voor de lage streefniveaus geldt dat er een progressief hoger wordende kans is dat er herkanst zal moeten worden naarmate het streefniveau nóg een stukje

Figuur 2. Functioneel verband tussen het gekozen streefniveau en de naar verwachting benodigde 'tijd' om te slagen, inclusief eventuele herkansingen. Tentamen van 50 vragen, zak-slaaggrens (cesuur) bij 26 'goed'. Herkansingen idem.

lager gekozen wordt. Tussen de beide uitersten is er één punt waar de curve het laagst is, is er één streefniveau waarvoor geldt dat het de laagste benodigde tijd om te slagen oplevert. Doorgaans zal dat 'optimale' streefniveau dicht boven de zak-slaaggrens van het

Het is opmerkelijk dat het 'optimale' streefniveau enigszins een wiskundige abstractie blijkt te zijn: er niet zozeer sprake van één bepaalde optimale studiestrategie (= te kiezen streefniveau), alswel van een tamelijk breed gebied van optimale strategieën, streefniveaus die elkaar maar heel weinig ontlopen qua verwacht benodigde tijd om te slagen. De gevolgen die dat heeft voor de efficiëntie van het onderwijs onder de gebruikelijke conjunctieve examenregelingen zijn vergaand, en dat hangt mede samen met de volgende constatering, nog steeds betrekking hebbend op figuur 2.

Bekijk figuur 2 nu eens vanuit de verticale dimensie: de benodigde hoeveelheid tijd om te slagen. Gegeven een bepaalde benodigde tijd, zijn er twee manieren om in die tijd voor het vak te slagen: trek een horizontale lijn vanuit de gekozen benodigde tijd, en laat vanuit de twee snijpunten van deze lijn met de curve, loodlijnen op de horizon-tale as neer; er zijn dan twee niveaus van gekozen streefniveau die in de gekozen tijd leiden tot slagen, respectievelijk een (relatief) laag streefniveau, en een (relatief) hoog streefniveau. Bij het lage streefniveau gaat er extra tijd verloren met naar verwachting af te leggen herkansingen, bij het hoge streefniveau wordt er extra tijd besteed aan het bereiken van een hoger stofbeheersing waar als 'beloning' een geringer risico om te zakken tegenover staat. Noem beide strategieën respectievelijk laag-optimaal en 'hoog-optimaal.

De verstandige student, die over voldoende studietijd beschikt, zal bij voorkeur een hoog-optimale strategie volgen. Een hoog-optimale strategie levert hem of haar immers in eenzelfde tijdbeslag als een laag-optimale strategie een zeer veel hogere mate van stofbeheersing op, en dat zou in de verdere studie en in het beroep wel eens profijt kunnen werpen. De ellende van de geanalyseerde examenregeling zit dan ook in de laag-optimale strategieën, die evenveel tijd kosten, maar een veel lagere stofbeheersing opleveren. Voor laag -optimale

strategieën is de voorbereidingstijd voor de eerste opkomst voor het tentamen geringer, en dat kan studenten verlokken tot het volgen van deze bij uitstek onproductieve strategieën. Er zullen ook studenten zijn die door tijdgebrek gedwongen worden tot het volgen van laag-optimale strategieën, en dat is wel heel erg jammer. Ik kom daar straks op terug. Het gigantische beleidsprobleem is nu om maatregelen te bedenken die studenten brengen tot het volgen van hoog-optimale strategieën, omdat alleen die strategieën redelijk efficiënt en productief zijn. Je zou kunnen zeggen dat een Individueel Studie Systeem zo'n maatregel is: studenten worden door het Systeem gedwongen tot het volgen van hoog-optimale strategieën.

Het wiskundige model waaruit figuur 2 berekend is, kan op verschillende manieren gebruikt worden: ofwel beschrijvend, ofwel voorschrijvend. Een beschrijvend gebruik van het model veronderstelt dat studenten zich in werkelijkheid gedragen zoals in het model beschreven; het zal in de eerste plaats de onderwijsonderzoeker zijn die hierin geïnteresseerd is en in empirisch onderzoek nagaat in hoeverre het model 'opgaat'. Een meer voorschrijvend gebruik van het model ligt op de weg van degenen die het onderwijsbeleid vormgeven: het onderwijs kan zó opgezet worden dat het waarschijnlijk is dat studenten zich volgens het model zullen gedragen, en dan kunnen verschillende mogelijke beleidsmaatregelen binnen dit model op hun te verwachten effecten doorgerekend worden; ook dit modelgebruik leidt tot onderzoek, omdat de bereikte onderwijsresultaten vergeleken zullen worden met de verwachte resultaten, opdat het beleid (of het model) bijgesteld kan worden.

Hoe het model, of de theorie, ook gebruikt wordt, het maakt in ieder geval onderzoek, evaluatie, en beleid tot vruchtbare activiteiten. Het legt een theoretische basis onder het beleidsmatig handelen, en dat maakt het mogelijk dat het beleid zich in terugkoppeling met de resultaten van evaluatief onderzoek, positief kan gaan ontwikkelen,

kan groeien, in plaats van stuurloos van de ene noodgreep naar de andere te zwalken.

Het denken in termen van die scherpe grens tussen 'voldoende' en 'onvoldoende' staat doordacht beleid in de weg.

In de hiervoor geschetste tentamenstrategie kijkt de student heel nuchter tegen de grens zakken-slagen aan: de bedoeling is er in de voorbereiding zó ver boven te mikken dat er een aanvaardbaar risico overblijft erónder terecht te komen. En gezien de forse aantallen onvoldoendes die in het wetenschappelijk onderwijs voor tentamens behaald worden, nemen studenten nogal forse risico's; anders gezegd: er worden vaak laag-optimale studiestrategieën gekozen. In deze situatie zal de docent zich er zorgen over kunnen maken of die herkansers die uiteindelijk 'slagen' wel op een 'voldoende' niveau zitten. Hoe krijgt de docent greep op deze vraag? Een noodzakelijke voorbereidende stap voor een rationeel beleid hierbij is het prijsgeven van de idee van heiligheid van de grens 'voldoende' - 'onvoldoende'. Of, wat op hetzelfde neerkomt: loslaten van de vooropgezette gedachte dat er een scherpe grens tussen 'voldoende' en 'onvoldoende' beheersing van de stof aan te wijzen zou zijn. Er zijn twee sterke argumenten voor die stap aan te voeren, argumenten die elkaar ook weer versterken.

Om te beginnen volgt uit het steekproefkarakter van ieder tentamen dat een scherpe grens tussen 'voldoende' en 'onvoldoende' tentamen-resultaten niet te rechtvaardigen is. Dat wil zeggen dat het laten slagen van de student met minimaal 'voldoende' score, en het laten zakken van de student die één punt lager scoort, nauwelijks in inhoudelijke termen te rechtvaardigen is. Een gedachtenexperiment kan dat verduidelijken:

100 studenten van wie 'bekend' is dat ze een stofbeheersing van 50% hebben, en een groep van 200 studenten met een stofbeheersing van 70%. 'Stofbeheersing' wil in dit verband zeggen: het percentage vragen uit het totale vragenbestand (waar ieder tentamen een steekproef uit vormt) dat goed beantwoord wordt. Bestaat zo'n vragenbestand niet feitelijk, dan zal het meestal toch denkbaar zijn dat zo'n bestand opgebouwd kan worden, of is ieder tentamen op te vatten als steekproef uit zo'n 'denkbare' vragenverzameling. Het gaat in dit voorbeeld om vragen die 1 punt opleveren hij goede beantwoording, en 0 punten hij foute beantwoording. Het is dan eenvoudig uit te rekenen hoe goed een tentamen van, zeg, 50 vragen kan onderscheiden tussen beide genoemde groepen studenten. De berekening is technisch, berust op wat het 'binomiale foutenmodel' genoemd wordt, en de details daarvan zal ik hier weglaten. Veronderstel dat de grens zakken-slagen ligt op 30, d.w.z.: om te slagen moeten tenminste 30 van de 50 vragen goed gemaakt worden. Dan is de statistische verwachting dat 10 van de groep van 100 studenten 'ten onrechte' zullen slagen, en 10 van de groep van 200 studenten ten onrechte zullen zakken. De cesuur van 30 blijkt 'optimaal' te zijn in de zin van een zo klein mogelijk aantal 'ten onrechte' genomen beslissingen. Dat zijn nogal onthullende cijfers, er blijkt immers uit dat twee groepen studenten die nogal stevig van elkaar verschillen qua stofbeheersing, door een toets van 50 vragen verre van perfect te onderscheiden zijn: voor bijna 7% van de 300 studenten wordt een onjuiste beslissing genomen.

Het tweede argument tegen een scherpe grens tussen 'voldoende' en 'onvoldoende' stofbeheersing is dat de docent zo'n scherpe grens niet aan kan wijzen, maar in plaats daarvan slechts een bepaald gebied kan aangeven. Daar komt nog bij dat de waardering die de docent heeft voor verschillende niveaus van bereikte stofbeheersing ongetwijfeld een geleidelijke stijgende functie van de stofbeheersing is, en niet een functie die een sprong naar boven maakt bij 'de grens' tussen wat een 'voldoende' en een 'onvoldoende' stofbeheersing genoemd wordt

Het loslaten van de idee van een scherpe grens tussen voldoende en onvoldoende stofbeheersing maakt het mogelijk de zorg van de docent over de stofbeheersing die herkansers bereiken, in terzake relevant beleid om te zetten.

Vanzelfsprekend heeft het verhogen of verlagen van de zak-slaaggrens invloed op de strategie die de student bij de voorbereiding op het tentamen kiest, en daarmee ook op de studieresultaten van die student, d.w.z.: op de mate van stofbeheersing die door de student bereikt wordt. Zo simpel ligt dat. Minder simpel is het om tot een gedetailleerde voorstelling van het hier beschreven mechanisme te komen, maar gelukkig is het eerder al besproken wiskundige model voor studiestrategieën ook hier bruikbaar. Figuur 3 laat zien op welke eenvoudige wijze: op dezelfde manier als bij een gegeven zak-slaaggrens de verwachte benodigde tijd om te slagen als functie van het gekozen streefniveau berekend wordt, kan die functie ook voor andere mogelijke zak-slaag grenzen berekend worden. In figuur 3 is vanwege de overzichtelijkheid voor slechts één andere zak-slaaggrens de functie ook ingetekend. Figuur 3 laat zien dat het verhogen van de zak-slaaggrens weinig effect heeft voor studenten die heel hoge streefniveaus hanteren, een gering effect voor hoog-optimale strategieën, en een sterk effect voor laag-optimale strategieën. Vooral studenten die laag-optimale strategieën kiezen worden door een verhoging van de zak-slaaggrens tot een verhoogde strategie, een verhoogde studie-inspanning gedwongen. Omgekeerd: een verlaging van de zak-slaaggrens geeft juist degenen die laag-optimale strategieën kiezen de ruimte om nóg lagere strategieën te volgen.

Figuur 3. Effect van schuiven met de cesuur op de benodigde 'tijd' om te slagen, inclusief herkansingen. Tentamen van 50 vragen, cesuur resp. 26 en 31. Herkansingen idem. (bron: Wilbrink 1978, figuur 6.3).

Het blijkt mogelijk om op basis van het model door te rekenen wat de verwachte effecten van het verleggen van de zak-slaaggrens zullen zijn op de door studenten gekozen streefniveaus (strategieën). Omdat de gekozen streefniveaus op hun beurt weer bepalen welke stofbeheersing de studenten in feite bereiken, kan voor verschillende mogelijke zak-slaaggrenzen berekend worden wat de verwachte stofbeheersing van de totale groep studenten zal zijn, of wat de stofbeheersing van bepaalde deelgroepen studenten (herkansers met name) zal zijn. Voor details van deze techniek verwijs ik naar Wilbrink (1980b), die

een uitgebreidere behandeling geeft waarin bijvoorbeeld ook de invloed van de aard van de herkansingsregeling in de berekeningen opgenomen is. Uit het voorgaande volgt da het dan ook mogelijk moet zijn om na het gemaakt hebben van een aantal van dergelijke berekeningen, díe zak-slaaggrens voor het tentamen te kiezen die leidt tot een aanvaardbare mate van stofbeheersing voor de hele groep deelnemende studenten, of voor bepaalde deelgroepen daaruit.

Op deze wijze krijgt de zak-slaaggrens een louter instrumenteel karakter, wat hij in zekere zin voor de studenten altijd al had. Het is dan ook beter om aan die grens niet meer de betekenis van het onderscheid 'voldoende' - 'onvoldoende' toe te kennen, maar alleen de betekenis van een formele eis waaraan de student heeft te voldoen om geslaagd te mogen heten voor dit studieonderdeel.

De gebruikelijke conjunctieve examenregeling eist dat in beginsel ieder vak 'voldoende' gemaakt moet worden. Dat brengt met zich mee dat bij ieder tentamen een zak-slaaggrens gehanteerd moet worden. Omdat het niet mogelijk is om een ook maar enigszins scherpe grens aan te geven tussen wat 'voldoende' en wat 'onvoldoende' stofbeheersing genoemd wordt, vervalt de mogelijkheid om de zak-slaaggrens in inhoudelijke termen te rechtvaardigen. Die rechtvaardiging moet dan ergens anders vandaan komen, want dát er een rechtvaardiging voor de gekozen zak-slaagrens gegeven moet kunnen worden staat buiten kijf: behoorlijk bestuur, of het administratieve recht, vraagt dat. Zolang er niet aan de examenregeling zélf gesleuteld kan worden, is de zak-slaaggrens waarschijnlijk alleen maar te verdedigen als afspraak die met de studenten gemaakt wordt. De afspraak is eenvoudig: wie beneden de zak-slaaggrens scoort, om welke reden ook, moet van de herkansingsregeling gebruik maken. De zak-slaaggrens als 'afspraak' wil alleen maar zeggen dat er niet meer

de betekenis van een scheiding tussen 'voldoende' en 'onvoldoende' stofbeheersing aan verbonden is; dat betekent echter geenszins dat de plaats van de zak-slaaggrens dan ook maar willekeurig gekozen zou kunnen worden. Voor de keuze van de zak-slaaggrens gelden de beleidsoverwegingen die in de voorgaande paragraaf besproken zijn, en die beleidsoverwegingen behoren dan ook openbaar te zijn.

Op deze wijze wordt de examenregeling een afsprakenstelsel, een eenzijdig contract, dat vastlegt aan welke formele eisen per vak voldaan moet zijn om voor het examen geslaagd te mogen heten. Over deze afspraken kan nuchter gesproken worden, zonder de ondertonen die horen bij het onvruchtbare denken in termen van strikte scheiding tussen wat 'voldoende' en 'onvoldoende' stofbeheersing genoemd wordt. Wanneer deze opvatting gemeengoed is, hoeft het zakken voor een tentamen voor de student geen traumatische ervaring meer te zijn: het is immers een risico dat erbij hoort, het werkt niet stigmatiserend, het is een kwestie van pech en niet van schuld. Op zo'n manier voor een tentamen zakken mag dan ook geen gevolgen hebben die wél weer in de 'schuldsfeer' liggen, zoals een negatieve advisering voor een studietoelage. Uiteraard geldt een en ander alleen voorzover het zakken het gevolg is van een studiestrategie waarin de student een redelijk en verantwoord risico op zakken genomen heeft, en niet voor die studiestrategieën waar deelname niet als serieus beschouwd kan worden (verkennen bijvoorbeeld).

Ten overvloede wijs ik erop dat hier eens te meer geldt dat de hele beoordelingsprocedure doorzichtig moet zijn voor de student: een goede voorlichting, oefening op het soort vraagstukken waaruit het tentamen zal bestaan, zo mogelijk proeftoetsgelegenheid, en een tevoren bekend gemaakte zak-slaaggrens.

Figuur 4. Effect van verbeterde doorzichtigheid op de optimale studiestrategieén. (bron: Wilbrink 1980b, figuur 4.5).

Figuur 4 laat het effect van een verbetering in de doorzichtigheid zien. De mate van doorzichtigheid kan gekwantificeerd worden (Wilbrink 1978 hoofdstuk 4) , en de effecten ervan op de studiestrategie, maar vooral op de voorspelbaarheid van het tentamenresultaat, doorgerekend. Dergelijke berekeningen voor een verbeterde doorzichtigheid laten zien dat de ongunstige laag-optimale studiestrategieën er onaantrekkelijker door worden, en dat is een gunstig effect voor het onderwijs. Hoewel figuur 4 het lijkt te suggereren wil ik hier toch nadrukkelijk stellen dat het niet zo is dat relatief 'zwakkere' studenten door de

grotere doorzichtigheid van de beoordelingssituatie met een studietijdverlenging opgezadeld worden.

Een opmerking nog over de tevoren bekend gemaakte zak-slaaggrens: op grond van gegevens verkregen uit voorgaande tentamenafnamen bij vergelijkbare groepen studenten zal het doorgaans mogelijk zijn om tevoren al de zak-slaaggrens vast te stellen en bekend te maken, met eventueel een clausule dat bij onverwacht zwaar uitgevallen tentamens die grens verlaagd kan worden. Bij deze procedure heeft de zak-slaaggrens naar de studenten toe het karakter van een absolute grens, waar in de voorbereiding rekening mee gehouden kan worden, terwijl de vaststelling relatief is, d.w.z.: op grond van wat eerder gebleken is dat redelijkerwijs geëist kan worden.

In de praktijk blijkt onder de gebruikelijke conjunctieve examenregelingen op grote schaal van herkansingen gebruik gemaakt te worden, zie tabel 1.

Tabel 1. Illustratieve zakpercentages (bij 1e opkomst) voor tentamens in het wetenschappelijk onderwijs.

Leveren die herkansingen nu ook nog iets productiefs op? Kun je bijvoorbeeld stellen dat na herkansing de stofbeheersing hoger zal zijn dan na de eerste tentamengelegenheid het geval was? Het antwoord daarop is teleurstellend: de stofbeheersing wordt niet of nauwelijks hoger door herkansingen af te laten leggen. Maar niet alleen is er geen verbetering van de stofbeheersing, er is bovendien sprake van een tamelijk ernstige mate van tijdverlies, want het moeten herkansen kost wél veel tijd, en gaat bovendien ten koste van de studiemotivatie (het is niet zo leuk om oude stof nóg weer eens een keer voor een tentamen te moeten bestuderen).

Dat herkansingen onproductief zijn valt makkelijk in te zien wanneer je nagaat hoe de student zich op een herkansing zal voorbereiden. Neem aan dat de student die in eerste instantie niet geslaagd is, bij de voorbereiding op de eerste tentamengelegenheid een redelijk streefniveau heeft gehanteerd, of een aanvaardbaar risico om te zakken heeft genomen. Het feit dat hij of zij gezakt is wordt volledig

toegeschreven aan het genomen risico, is 'pech'. Welke strategie zal deze student voor de herkansing volgen? Neem aan dat aan het aantal mogelijke herkansingen geen beperking is opgelegd, en dat herkansingen in alle opzichten te vergelijken zijn met het tentamen bij de eerste gelegenheid (maar wél uit een andere steekproef van vragen bestaan, uiteraard). Welnu, wat voor deze student bij de eerste gelegenheid de beste strategie was, het bij voorkeur gekozen streefniveau, zal dat ook bij de herkansing zijn. De student kiest voor de herkansing hetzelfde streefniveau, neemt voor de herkansing hetzelfde risico om te zakken als bij de eerste gelegenheid. Conclusie: voor herkansingen werkt de student naar hetzelfde niveau van stofbeheersing toe als voor de eerste toetsgelegenheid, zodat bij het herkansen er geen productieve winst in stofbeheersing geboekt wordt. Er zijn bij deze redenering nog wel enkele detail-commentaren te leveren, maar die doen aan de grote lijn weinig of niets af (zie ook Wilbrink 1977 par. 6.6.).

Is er maar één herkansingsgelegenheid, dan zal de student zich daarvoor maximaal moeten inspannen: er kan geen enkel zakrisico genomen worden, omdat zakken voor de herkansing óók zakken voor het examen betekent. Omdat het voor de meeste studenten vrijwel uitgesloten is zich dermate goed op een herkansing voor te bereiden dat het risico om te zakken verwaarloosbaar is, is het sterk af te raden examenregelingen met op deze wijze beperkte aantallen herkansingen te hanteren. Dat dergelijke beperkingen desalniettemin nog vaak voorkomen is toe te schrijven aan het onvermogen van de niet statistisch getrainde docent om in te zien hoe groot dergelijke zakrisico's doorgaans voor de studenten zijn (zie ook Wilbrink 1978, hoofdstuk 7).

Ondanks de sombere conclusie die hierboven getrokken is, kan de conjunctieve examenregeling het niet zonder herkansingsregeling stellen, omdat dan ofwel het over-all niveau niet te handhaven is doordat de zak-slaag grenzen voor ieder afzonderlijk studieonderdeel drastisch

verlaagd moeten worden om de bonafide student nog een goede kans op slagen voor het examen te geven, ofwel zeer veel studenten ten onechte niet voor het examen zullen slagen wanneer de zak-slaag grenzen niet aangepast worden. Herkansingen blijken een noodzakelijk kwaad, gegeven deze vorm van examenregeling.

Het is mogelijk om dat kwaad enigszins te beperken door reparatiemaatregelen. Bijvoorbeeld kan dat door herkansingen op heel korte termijn te houden, na enkele dagen of een week. Daardoor zal weliswaar gretiger van de herkansingsregeling gebruik gemaakt warden, waaraan iets te doen is door een kleine bijstelling van de formele zak-slaaggrens, maar zal al met al toch het totale tijdverlies teruggebracht kunnen worden zonder het gemiddelde 'niveau' aan te tasten. Het doorzichtiger maken van de beoordelingssituatie is ook zo'n reparatie-mogelijkheid. Bij Individuele Studie Systemen zijn de herkansingen meestal op heel korte termijn, en gaan die herkansingen bovendien over kleinere stukken van de stof. Al dergelijke maatregelen kunnen niet wegnemen dat het vele herkansen een fantastische verliespost voor alle betrokkenen oplevert, een verliespost die kwijt te spelen zou zijn door op een ander soort examenregeling over te gaan.

Ik wijs er nog op dat het vele herkansen niet een gelijkmatig over alle studenten verdeelde tijdverspilling is, maar dat juist die categorieën studenten die dat het minst kunnen dragen met de zwaarste herkansingslasten opgescheept worden. Juist de relatief zwakkere studenten, die eigenlijk op een extra stukje ondersteuning zouden mogen rekenen, worden onder conjunctieve examenregelingen gedwongen tot de verspillende laag-optimale studiestrategieën, waardoor zij in dezelfde tijd tot een veel lager stofbeheersing komen dan onder betere omstandigheden mogelijk geweest zou zijn, en waardoor zij voor hun verdere studie ook in een slechtere uitgangspositie komen te verkeren. De conjunctieve examenregeling werkt zeer ongelijke onderwijs-kansen in de hand, zou je kunnen zeggen, en verdient ook daarom door

Het nu voor de hand liggende alternatief is een compensatorische examenregeling waarin het cijfergemiddelde over alle vakken tezamen tenminste gelijk moet zijn aan een vastgesteld minimum om geslaagd te kunnen heten. Dergelijke compensatieregelingen zijn overigens in ons onderwijs al algemeen gebruikelijk, denk aan cijfergewoonten per vak in het lager en middelbaar onderwijs, maar ook aan de wijze waarop voor een enkel tentamen de eindscore genomen wordt als totaalscore over alle gevraagde onderwerpen.

Met een compensatorische examenregeling kan hetzelfde afstudeerniveau gerealiseerd worden, maar dan zonder herkansingen, en zonder het tijdverlies dat van die herkansingen het gevolg is. Het is niet noodzakelijk om bij een compensatorische regeling iedere herkansingsmogelijkheid voor afzonderlijke vakken af te schaffen, maar het is wel het meest logisch om de regeling zó op te zetten dat voor ieder vak of deelvak maar één tentamengelegenheid geboden wordt. Om dat behoorlijk te laten verlopen moet er wel voldoende doorzichtigheid aan de studenten geboden worden, bijvoorbeeld door proeftoetsgelegenheden te geven. Verschillende varianten zijn denkbaar: mét of zonder dossierdiploma; mét of zonder de mogelijkheid om langer over de studie te doen dan de studieduur; eventueel met herkansingsmogelijkheden per vak, of voor ieder vak bepaalde minima. De laatste varianten zijn vooral van belang voor korte studieprogramma's zoals de propedeuse, waar de voordelen van een compensatorische regeling wat moeilijker ten volle te realiseren zijn. Wilbrink (1978, hoofdstuk 8) geeft een gedetailleerde uitwerking van de belangrijkste varianten van dergelijke compensatorische regelingen voor de propedeuse. De propedeuse is ook de voor de hand liggende studiefase om met dergelijke nieuwe examenregelingen te beginnen. Er zijn dan wel goede maatregelen nodig om te voorkomen

dat langs een achterdeur opnieuw ernstig tijdverlies gaat ontstaan doordat te veel studenten gedwongen worden na een mislukt examen de hele propedeuse te herhalen.

De tijdbesparing van een compensatorische regeling t.o.v. een conjunctieve regeling kan aanzienlijk zijn, zeg zo'n 10 tot 20 procent. Het hoeft geen betoog dat in zowel persoonlijke als maatschappelijke kosten/baten dat aanzienlijke sommen gaat belopen.

Compensatorische regelingen hebben méér voordelen dan alleen het kwijtspelen van onproductieve herkansingen. Juist doordat er (vrijwel) niet meer herkanst wordt ontstaat de wenselijke situatie dat studenten geen 'oude stof' meer hoeven herkauwen. Dat is ook bij herkansingsregelingen wel te bereiken door nieuwe stof voor de herkansing op te geven, of er een werkstuk voor te laten maken, maar dat is zelden organisatorisch eenvoudig te realiseren. Compensatorische regelingen bieden uit de aard van hun karakter aan de student méér mogelijkheden om de studie naar eigen wensen en behoeften in te richten: aan bepaalde vakken wat méér, aan andere vakken wat minder aandacht te besteden. Dat is overigens een vrijheid die alleen bestaat voor studenten die ruim in hun studietijd zitten. De overigen, het merendeel van de studenten waarschijnlijk, doet er het meest verstandig aan om tijd en energie evenwichtig over alle vakken te verdelen, dat brengt het meeste punten in de kortste tijd op. Wilbrink (1978, hoofdstuk 8) behandelt uitgebreid de mogelijke studiestrategieën bij compensatorische examenregelingen. De weging van vakken onderling is daarbij belangrijk, zoals diezelfde weging ook een krachtig beleidsinstrument is om een evenwichtige verdeling van de aandacht van de studenten over de verschillende vakken te bereiken.

Tenslotte wil ik er nog op wijzen dat bij een compensatorische examenregeling zoals die in de practijk functioneert, de voordelen ervan

geenszins als vanzelfsprekend in het oog zullen springen. Empirische gegevens zijn vaak pas zinvol te interpreteren in vergelijking tot resultaten zoals die onder conjunctieve examenregelingen verkregen zijn. Ook dan is er nog bijzondere zorg nodig om de vergelijking zinvol te kunnen doen, omdat verschillen en overeenkomsten in de gegevens theoretisch geduid moeten worden, op grond van dezelfde theorie bijvoorbeeld die om te beginnen reden was om van een conjunctieve examenregeling over te gaan op een compensatorische. Zonder een theoretische basis onder de evaluatie bestaat het levensgrote risico dat vermeende nadelen van de (toevallig) geldende regeling ertoe leiden dat weer overgegaan wordt op een regeling van het andere soort (vergelijk stemmen in de Verenigde Staten van Amerika die pleiten voor overgaan van het grade point average system op pass-fail scoring).

Onder compensatorische regelingen blijft een onderscheid tussen laag- en hoog-optimale strategieën van belang, omdat bij tegenvallende resultaten er voor volgende toetsen een extra inspanning zal moeten volgen. Het blijft altijd lonend om bij twijfel een extra inspanning te plegen. bw 2024

Literatuuropgaven.

Cohen-Schotanus, J. & T. Mooiweer, Hoe Langer hoe beter. De relatie tussen voorbereidingstijd en tentamenresultaat bij medische studenten te Groningen. Buro Onderwijsontwikkeling Geneeskunde, Groningen 1979.

Crombag, H.F.M., J. G. Gaff & T. M, Chang, 'Study behavior and academic performance', Tijdschrift voor Onderwijsresearch, 1975, 1, 3-14. https://objects.library.uu.nl/reader/index.php?obj=1874-208331&lan=en#page//12/18/90/121890336681949754930372395362806322489.jpg/mode/1up

Crombag, H.F.M., D.N.M. de Gruijter, P. van de Ende & P. Vos, De nieuwe propedeuse in de faculteit der Rechtsgeleerdheid. Bureau Onderzoek van Onderwijs, R.U. Leiden, rapporten nr. 20 en 21, oktober en november 1980.

Dubin, R. & T.C. Taveggia, The teaching-learning paradox: a compara-tive analysis of college teaching methods. Eugene, Or.: University of Oregon, Center for the Advanced Study of Eductional Administration, 1968.

Hoogstraten, Joh. & H.C.M. Vorst, Het voorspellen van de eigen studie-prestaties', Tijdschrift voor Onderwijsresearch, 1980, 5, 211-220.

Hoeksma, G.F. Bernaert & W. van Os, De propedeuse sociale geografie: feiten en meningen. Amsterdam: V.U., Afdeling Onderwijsresearch, november 1979.

Muggen, G., Meten en sturen van studierendement. Wageningen: Landbouwhogeschool, Bureau Onderzoek van Onderwijs, augustus 1979.

Van Naerssen, R.F., Het derde tentamenmodel met een toepassing', Tijdschrift voor Onderwijsresearch, 1976, 1, 161-171.

Wilbrink, B., 'Enkele radikale oplossingen voor kriterium grensskores'. Tijdschrift voor Onderwijsresearch, 1980, 5, 122-125 (a). Wilbrink, B. , 1980 (b). Cesuurbepaling (2e versie). Amsterdam: U.v.A., COWO,

Wilbrink, B. Passing scores on domain referenced tests: an improved decision-theoretic methodology for optimization. Amsterdam: U.v.A., COWO, 1980 (c).

Beleid bij tentamens en examens

Ben Wilbrink

Over beleid bij tentamens en examens leg ik U 8 stellingen voor. Tezamen geven deze in telegramstijl een uitgesproken visie op het beoordelen in het onderwijs, waarin hopelijk voldoende samenhang steekt om er een aanzet tot theorievorming in te mogen zien. (Zijn er op dit gebied dan nog geen handzame theorieën? Nee, er zijn slechts methoden en technieken beschikbaar, en die zijn nog geleend ook, voornamelijk uit de psychologie. Is theorievorming dan wel zo nodig, nu we het al zo lang zonder hebben kunnen doen? Ja, dat is nodig. Ik zal dat toelichten.)

Bij het onderwijsbeleid wordt steun gezocht bij concrete gegevens over hoe het onderwijs functioneert. Om op grond van die gegevens het beleid gestalte te kunnen geven, moeten deze gegevens eerst geïnterpreteerd worden: de gegevens spreken nimmer voor zichzelf. Voor interpretatie is tenminste een theorie nodigt hoe gebrekkig ook, wil je niet helemaal terugvallen op traditionele wijsheden die veelal traditionele vooringenomenheden zullen zijn. Een voorbeeld:

Stel dat U als docent wilt weten waarom studenten zakken voor Uw tentamen, en dat U in een kleine enquête na afloop van het tentamen het volgende vraagt (ook met sheet geprojecteerd):

Wanneer blijkt dat u gezakt bent voor dit tentamen, hoe komt dat dan?

te laat met de voorbereiding begonnen,
het tentamen was moeilijker dan verwacht,
door persoonlijke omstandigheden heb ik mij onvoldoende kunnen voorbereiden.

De vragensteller is hier naïef te werk gegaan: vrij associërend op het begrip 'zakken' zijn mogelijke oorzaken bedacht die louter in de sfeer van de pathologie liggen. Achter het symptoom 'zakken' wordt inadequaat studeergedrag verondersteld.

De student wordt gedwongen tot het aangeven van een pathologische oorzaak, ook als die er niet zou zijn. De twee mogelijke uitslagen, zakken of slagen, worden teruggeprojecteerd naar waar de student zich in de voorbereiding op gericht heeft. Maar zolang de student nog met de voorbereiding bezig is, gaat het om de kans om te slagen, of de kans om te zakken. Een beter passende, en meer informatieve vraagstelling zou de volgende kunnen zijn (ook met sheet geprojecteerd):

Naar welke slaagkans hebt U in Uw voorbereiding toegewerkt?

100 %
80 %
60 %
lager.

Denkt U dat Uw slaagkans lager / gelijk / hoger is dan waar U in Uw voorbereiding naar gestreefd hebt?

U ziet, een klein beetje reflectie leidt tot een sterk verbeterde vraagstelling. Een meer systematische reflectie, op grond van theorie of uitgesproken filosofie, kan de interpreteerbare empirische gegevens opleveren die het beleid zo hard nodig heeft.

Stelling 1. Studenten laten zich niet passief beoordelen, maar zullen in hun studeergedrag er op vooruitlopen.

Zakken of slagen zijn voor de student te belangrijk om van het toeval af te laten hangen. De student weet voor zichzelf welke slaagkans hij of zij ongeveer wil hebben, en zal daar in de voorbereiding op het tentamen dan ook naartoe werken.

De stelling impliceert dat studenten dan ook in staat zijn om hun slaagkans te voorspellen. Immers': je gaat net zo lang door met studeren tot je denkt de gewenste slaagkans ongeveer bereikt te hebben (tenzij je tijd tekort blijkt te komen).

In een recent gepubliceerd onderzoek blijken studenten in 50 tot 80 % van hun voorspellingen in categorieën als 'zakken' en 'slagen' gelijk te hebben. De onderzoekers trekken daaruit de conclusie dat studenten niet kunnen voorspellen. En dat betekent dan weer dat studenten op chaotische wijze zouden studeren. Zo'n zwartgallig beeld over het onderwijs wil ik niet voetstoots overnemen: de resultaten van dit onderzoek moeten ánders geïnterpreteerd worden. Die andere verklaring heb ik al een beetje weggegeven: er is onderzocht of studenten hun zakken of slagen konden voorspellen, en niet of ze hun slaagkans juist konden inschatten.

Wie de voorspelling van zakken of slagen onderzoekt, moet er rekening mee houden dat het plafond in die voorspelling niet gelijk is aan 100 % correct. Een simpel voorbeeld kan dat illustreren:

Neem een groep studenten waarvan bekend is dat ze een stofbeheersing hebben van ongeveer 60 %. op de toets is de zakslaaggrens eveneens op 60 % goed gesteld. Welnu, voor deze groep studenten geldt dat de uitslag "zakken of slagen' een toevalsresultaat is. Gevraagd hun uitslag te voorspellen, is de maximale score, als je dat zo mag uitdrukken, 50 % correcte voorspellingen, en dat is gelijk aan het toevalsresultaat. Dat toevalsresultaat en plafond in dit geval gelijk zijn, is bijna een kwestie van definitie, zou je kunnen zeggen. Maar wanneer een fors percentage studenten voor het tentamen zakt, dan zijn er nogal wat studenten in de groep voor wie de beste voorspelling zo'n 50% of 60% succeskans heeft. Zo'n laag percentage betekent niet vanzelfsprekend dat studenten hun slaagkansen niet goed kunnen inschatten.

Stelling 2. Studenten proberen hun doelen op de meest effectieve wijze te realiseren.

Naast allerhande andere levensdoelen waar tegelijkertijd aan gewerkt wordt, is een belangrijk streven van de student om voor zijn tentamens te slagen. Daarbij zal de student proberen om in zo kort mogelijke tijd te slagen, met een zo gering mogelijk tijdbeslag. Tenslotte zijn er nog wel meer dingen te doen als alleen maar voor tentamens werken. In dit verband laat zich de vraag stellen of beter studieresultaten inderdaad bereikt kunnen worden door harder te werken, door een hoger motivatie, door goede studiegewoonten, of door sterker intellectuele capaciteiten.

Op deze vraag gaven enkele collega's van mij vijf jaar geleden een ontkennend antwoord, op grond van een uitgebreid onderzoek in een viertal verschillende studierichtingen. Wat was namelijk het geval: de resultaten lieten zien dat studenten met betere studiegewoonten geen betere studieresultaten boekten dan studenten met slechtere studiegewoonten. En hetzelfde voor beter gemotiveerde studenten, en voor meer intelligente studenten. Aan deze resultaten werd de conclusie verbonden dat studiesucces een kwestie van geluk is, dat al deze relevante factoren kennelijk geen invloed op het studieresultaat hebben, dat het onderwijs 'dus' chaotisch functioneert, en tenminste irrationeel in elkaar steekt.

Voordat we meegaan met deze zwartgallige conclusies, en voordat we de stelling verwerpen dat studenten op effectieve wijze studeren, moet er toch even gekeken worden of ook hier de onderzoekresultaten wel zo vanzelfsprekend zijn. Om te beginnen hoef je geen groot onderwijskundige te zijn om de stelling overeind te houden dat het investeren van extra studietijd leidt tot betere (verwachte) studieresultaten. Wanneer harder werkende studenten niet evident beter resultaten bereiken dan studenten die het wat kalmer aan doen, moet gecontroleerd worden of de laatste categorie studenten de kortere tijdbesteding misschien compenseert door een betere voorkennis, of door groter slimheid. Dat is punt 1. Punt 2 is dat de keuze van streefniveau of slaagkans in hoge mate bepalend is voor de tijdbestedingen dat die keuze meer van persoonlijke factoren af zal hangen dan van bekwaamheden of studiegewoonten.

Kortom: de student kiest zich een streefniveau, en past zijn tijdbesteding daar zo bij aan dat het gewenste resultaat bereikt wordt.

Wanneer studenten streven naar een bepaalde slaagkans op het tentamen, of naar een bepaald cijfer voor dat tentamen, zal dat de docent enigszins verdrieten. De beloning van de studieprestatie dicteert de studie-inspanning, en niet de gemotiveerdheid om van het vak inhoudelijk kennis te nemen. Belangrijker is het in dit verband om op te merken dat er bij het evalueren van het onderwijs ernstige problemen kunnen ontstaan wanneer men zich niet bewust is van die discrepantie tussen de doelen van de docent en die van de studenten.

De studieresultaten, of zak-slaag percentages, zullen al gauw gebruikt worden als maat voor het effect van onderwijsverbeteringen. Het laat zich makkelijk raden wat er gebeurt in die situaties waar de studenten hun streefniveau bepalen onafhankelijk van de aard van de leerstof, of de wijze waarop het onderwijs gegeven wordt. Een kwalitatieve verbetering van het onderwijs kan er dan in resulteren dat studenten minder tijd nodig hebben om hun streefniveau te realiseren, en dan ook inderdaad niet méér tijd zullen investeren. Daardoor eigenen studenten zich het positieve effect van de onderwijsverbetering toe. De docent ziet de studieresultaten niet verbeteren, en concludeert misschien ten onrechte dat alle moeite en inspanning voor die onderwijsverbetering vergeefs zijn geweest. Het mechanisme dat ik hier beschrijf is er waarschijnlijk voor een groot deel verantwoordelijk voor geweest dat onderzoek naar het effect van kwaliteitsverbetering van het onderwijs zelden of nooit duidelijke resultaten opleverde, zoals door Dubin en Taveggia in hun publicatie uit 1968 beschreven.

De les is natuurlijk deze: dat de doelen van de student geweldig belangrijk zijn, en dat je met het beleid dáár invloed op uit kunt oefenen, er tenminste rekening mee moet houden.

Het ziet er naar uit dat een Individueel Studie Systeem de verbetering van het onderwijs combineert met een greep op de streefniveaus van studenten, en mede dáárom ook duidelijke effecten kan sorteren.

Stelling 4. Een examenregeling die voor ieder vak een voldoende eist, brengt veel herkansingen met zich mee.

Omdat studenten maar zelden in staat zullen zijn een zeer hoge slaagkans na te streven (ook al zouden ze dat willen), is het evident dat er nogal eens herkanst zal moeten worden. Zakken en herkansen is een kwaad waar de student zelden helemaal onder uit kan. De rationele student zal van de nood een deugd maken door slaagkansen na te streven die binnen de kortste verwachte tijd leiden tot slagen. Dat is wat anders dan slagen met zo weinig mogelijk herkansingen. Het moeten herkansen kost tijd en energie, maar dat geldt ook voor het nastreven van een extra hoge slaagkans om dat herkansen te vermijden. Ergens zal er een evenwichtspunt zijn, waar een extra studie-inspanning geen verhoging van de slaag-kans meer oplevert die de moeite nog waard is. Deze redenering kan in exacte, wiskundige, taal gegoten worden, en laat in die vorm heel interessante berekeningen toe. Zo is het mogelijk om voor verschillende streefniveaus in mate van stofbeheersing na te gaan wat de naar verwachting benodigde tijd is om te slagen.

Dat levert U-vormige curven op, die het laagste, en dus optimale niveau van verwacht tijdbeslag bereiken voor een nagestreefde stofbeheersing die tamelijk dicht boven de gestelde zak-slaaggrens ligt. Er is echter niet duidelijk één optimaal streefniveau, maar er is een tamelijk breed gebied dat optimaal is. Bij rechts-optimale strategieën wordt minder vaak herkanst en bereiken de studenten een redelijke stofbeheersing. De verstandige student, die over voldoende studietijd beschikt, zal bij voorkeur zo'n strategie volgen, maar heeft daar wel enige wilskracht bij nodig (omdat vrijwel alle voorbereidingstijd-voor de 1e opkomst besteed wordt).

De ellende van de situatie zit hem in de links-optimale strategie, die evenveel tijd kost, maar een zeer veel lagere stofbeheersing oplevert. De voorbereidingstijd voor eerste opkomst is hier geringer, zodat de verleiding voor de student groot is om deze onproductieve strategie te volgen, terwijl er ook studenten zullen zijn die door tijdgebrek gedwongen worden tot deze strategie.

Blijkens de grote aantallen herkansers in het w.o. wordt er nogal links-optimaal gestudeerd. Het gigantische probleem voor het beleid is om maatregelen te bedenken die studenten brengen tot rechts-optimale studiestrategieën. Het Individuele StudieSysteem is zo'n maatregel, waarin alle studenten op de productieve studiestrategie gezet worden, zou je kunnen zeggen.

6 december 2017. De uitspraak aan het begin is toch wel een beetje uit de lucht gegrepen. Om het strakker te krijgen: analyseer de gegevens achterf, na weglaten van de studenten die tussentijds gestopt zijn met de studie.

Stelling 5.Die scherpe grens tussen voldoende en onvoldoende prestaties is fictief.

Let maar eens op hoe vaak in geschreven tekst of in gesproken woord de opvatting gehuldigd wordt dat er een scherp af te bakenen grens tussen voldoende en onvoldoende stofbeheersing bestaat, met een bijbehorende grote sprong in waardering van prestatieniveaus. In de vraag: 'Waarom denkt U gezakt te zijn?' zit dat ook al verborgen. Zakken en slagen wordt volstrekt ten onrechte gezien als iets dat de student geheel in eigen hand heeft, terwijl de student die U vroeger zelf ook bent geweest, toch alleen maar de zekerheid kent geen zekerheid van slagen te kunnen bereiken, tenzij tegen zeer grote inspanning. Het is een misvatting dat studenten op deze wijze hun lot in eigen hand zouden hebben. Zoals het ook een misvatting is te denken dat uw tentamen feilloos de bokken van de schapen kan scheiden. Dat laatste is maar bij wijze van spreken, maar het beeld kan in een gedachten-experiment uitgewerkt worden: het is gewoon uit te rekenen hoe goed uw tentamen van 50 vragen kan onderscheiden tussen 100 studenten met een stofbeheersing van 50%, en 200 studenten met een stofbeheersing van 70%. Voor drie mogelijke zak-slaag grenzen, gericht op het optimaal scheiden van deze twee groepen, levert dat de volgende aantallen ten onrechte afgewezenen, of t.o. doorgelatenen op (ook met sheet geprojecteerd):

Plotten van scoreverdelingen zoals in deze figuur is mogelijk in de eigen browser met de applets in het SPA-model moduul 1

Zelfs bij de in dit geval optimale zak-slaaggrens van 30 (wanneer ten onterechte afwijzen evenzeer betreurd wordt als ten onrechte doorlaten), levert dat tentamen van 50 vragen nog 7 % onjuiste beslissingen op. Beste mensen, laten we liever die terminologie van 'voldoende' en 'onvoldoende' prestatie loslaten, en daarmee een stuk woordmagie kwijt spelen. Onze toetsen zijn er ongeschikt voor. Bovendien is het toch ook zo dat de waardering voor een klimmende mate van stofbeheersing een geleidelijk stijgende functie is, en niet een functie die ergens een grote sprong omhoog maakt, een sprong die merkwaardigerwijs traditioneel bij voorkeur bij 60 % stofbeheersing gemaakt wordt.

Stelling 6.Het is beter de zak-slaaggrens als beleidsinstrument te beschouwen, dan als iets dat correspondeert aan de magische grens tussen voldoende en onvoldoende stofbeheersing.

De conjunctieve examenregeling vraagt om het hanteren van zakslaag grenzen. Dat volgt uit de eis dat ieder vak 'voldoende' gemaakt moet worden. Wanneer er geen grens tussen voldoende en onvoldoende stofbeheersing aan te geven is, moet de rechtvaardiging voor de plaats van de zak-slaaggrens ergens anders vandaan komen. En dat er een rechtvaardiging voor die grens gegeven moet kunnen worden is een vanzelfsprekende zaak: behoorlijk bestuur, of het administratief recht, vraagt dat. Valt er direct nog niet aan de examenregeling te tornen, dan is de zak-slaaggrens te verdedigen als afspraak met de studenten. De afspraak is eenvoudig: wie er beneden scoort, om welke reden dan ook, moet van de herkansingsregeling gebruik maken. De student kan verteld worden dat de plaats van die zak-slaaggrens zó gekozen is dat de studenten de gewenste mate van stofbeheersing door de bank genomen inderdaad realiseren. Het laatste is geen smoesje, geen leugentje om bestwil, het is precies de wijze waarop beleidsmatig van de mogelijkheden om met de zak-slaaggrens te schuiven, gebruik gemaakt wordt. Teruggaand naar de U-vormige kromme voor de benodigde tijd om te slagen, is het makkelijk in te zien dat verschuiven van de cesuur leidt tot andere optimale strategieën.

Effect van verbeterde doorzichtigheid van de toetsing op benodigde tijd om te slagen (verticaal)

De figuur is nagetrokken. Dit type analyse is nu onder de eigen browser uit te voeren met de Java-applets voor moduul 7 of 8 uit het SPA-model.

De hoogte van de zak-slaaggrens beïnvloedt het studeergedrag, en daarmee de resultaten die met het onderwijs bereikt worden. Zo simpel ligt dat. En dat is in lijn met wat docenten altijd al als uitgangspunt voor hun beleid hebben gehanteerd, zij het dat een inhoudelijke rechtvaardiging daarvoor niet altijd even eenvoudig te geven was. Ik wijs er ten overvloede nog eens op dat een en ander een doorzichtige beoordeling vraagt, goede voorlichting aan studenten, eventueel proeftentamens, en een tevoren bekend gemaakte zak-slaaggrens. De figuur laat het effect zien van een sterk verbeterde informatie over de toetsing op de verwacht benodigde tijd om te slagen bij het gekozen streefniveau. Verbeterde doorzichtigheid heeft als positief resultaat dat de ongunstige 'links optimale' streefniveaus onaantrekkelijker worden. Hoewel de figuur het een beetje lijkt te suggereren, is het niet zo dat de relatief zwakkere studenten door de grotere doorzichtigheid met een studietijdverlenging opgezadeld worden.

Stelling 7. Herkansingen zijn onproduktief en demotiverend, en desondanks noodzakelijk, tenminste onder de traditionele conjunctieve examenregeling.

Wordt voor ieder studieonderdeel een zogenaamde voldoende geëist, dan kan het niet anders of er moeten herkansingsgelegenheden geboden worden. In de praktijk blijkt op grote schaal van die herkansingen gebruik gemaakt te worden.

Gaan we nog even terug naar de figuur voor verwachte tijd nodig om te slagen: wat daar als optimaal streefniveau uitrolt voor de eerste toets- gelegenheid, is ook het optimale streefniveau voor herkansingen. Tenminste, wanneer het aantal herkansingen niet beperkt is. De berekeningen achter deze figuur zijn dan ook gemaakt op grond van telkens hetzelfde streefniveau voor eerste opkomst en voor eventuele herkansingen. Misschien hebt U altijd al zoiets vermoed, maar het nooit uit durven spreken: dit betekent dat voor de gewone, hard werkende student het doen van een herkansing louter tijdverlies is: hij zal er de stof niet beter door gaan beheersen dan de eerste keer al het geval was. Even teruggrijpend op de enquête-vraag naar de reden waarom de student denkt gezakt te zijn: de meeste studenten die zakken hebben gewoon pech en zullen zich voor de herkansing terecht tot op ongeveer hetzelfde beheersingsniveau voorbereiden als voor de de opkomst gekozen werd.

Ik wijs erop dat het vele herkansen niet een gelijkmatig over alle studenten verdeelde tijdverspilling is, maar dat juist die categorieën studenten die dat het minst kunnen dragen, met de zwaarste herkansingslasten opgescheept worden. De conjunctieve examenregeling werkt zeer ongelijke onderwijskansen in de hand, zou je mogen zeggen.

Al met al betekent het vele herkansen een fantastische verliespost, die kwijt te spelen zou zijn door over te gaan op een geheel ander soort examenregeling.

Stelling 8. Uiteindelijk zal de examenregeling vérgaand compensatorisch moeten worden.

In een compensatorische examenregeling komen géén of vrijwel geen herkansingen voor. Exameneisen zijn gesteld als minimaal te behalen gemiddeld studieresultaat, over alle vakken.

Compensatie is overigens algemeen gebruikelijk, denk aan cijfergewoonten per vak in het lager en middelbaar onderwijs, maar ook aan de wijze waarop voor een enkel tentamen de eindscore als totaalscore over alle gevraagde onderwerpen genomen wordt.

Het onderzoek naar het voordeel in efficiëntie van compensatorische regelingen moet nog verricht worden. Zoveel is echter al wel duidelijk, ook uit de voordracht die ik U heb gegeven, dat voor de hand liggende tegenwerpingen geen hout snijden. Met name argumenten over minimum-niveaus per vak die toch gegarandeerd zouden moeten blijven, zijn gebaseerd op de misvatting dat onder traditionele regelingen die garanties er wél zouden zijn. Denk maar aan het gegeven voorbeeld over het scheiden van de bokken en de schapen.

De voor de hand liggende studiefase om te beginnen met een compensatorische regeling, is de propedeuse. Voor een propedeuse-regeling zijn dan wel bijzondere maatregelen te treffen om te voorkomen dat langs een achterdeur opnieuw enorm tijdverlies gaat ontstaan doordat teveel studenten gedwongen worden de hele propedeuse te herhalen. In de tekst in het congresboek heb ik zowel voor dit speciale punt, als voor de andere besproken onderwerpen, verwezen naar publicaties die een meer volledige uiteenzetting bevatten. en waar ook de technieken gegeven worden. In deze voordracht heb ik niet méér kunnen doen dan enkele saillante punten onder Uw aandacht te brengen, hopelijk met het effect dat Uw nieuwsgierigheid gewekt is.

Beleid bij tentamens en examens.

Ben Wilbrink, Centrum voor Onderzoek van het Wetenschappelijk Onderwijs (COWO), Universiteit van Amsterdam.

Vermoedelijk is dit het papervoorstel. Ik moet dat nog checken aan de hand van het manuscript.

1. Beoordelen in het onderwijs is geen fysisch meten. Studenten praten terug: zij richten zich in hun voorbereiding op het verkrijgen van een bepaalde beoordeling, en lopen daarmee op de beoordeling vooruit.

Vaststellen hoe hoog de stofbeheersing van de student is, is niet hetzelfde als niveaubepaling in een kennistank m.b.v. een peilstok. De beoordeelde student heeft zelf belang bij de uitslag, en zal die uitslag dan ook naar zijn hand proberen te zetten.; In de voorbereiding mikt de student al op een bepaald resultaat. Je zou kunnen zeggen dat een goed tentamen dát tentamen is waarbij de student inderdaad de score behaalt waarop hij zich voorbereid heeft. Wil het onderwijs goed functioneren, dan moeten studenten in staat zijn om hun tentamenresultaat redelijk te voorspellen. Zou dat niet het geval zijn, dan zouden zij zich in het wilde weg op tentamens moeten voorbereiden, en dat zou tot chaotische toestanden leiden. Kennelijk is het dan ook zó dat de tentamenresultaten van een groep studenten een tamelijk getrouwe afspiegeling,zullen vormen van wat zij ook aan resultaten bedoelden te halen (Wilbrink 1980b, bijlage D). Bijvoorbeeld: zijn er nogal wat gezakten, dan heeft een grote groep studenten een fors risico genomen om te zakken, willens en wetens.

2. Studenten gedragen zich rationeel: zij proberen hun doel op de meest effectieve wijze te realiseren.

In het denken over onderwijs is deze stelling vruchtbaarder dan de veronderstelling dat studenten onwillig, onmachtig en onkundig zijn. Doorstromingsgegevens en studieresultaten wekken oppervlakkig bezien wel eens de indruk dat het laatste waarschijnlijker is dan het eerste, maar het zou gemakzuchtig zijn je daarin door oppervlakkige indrukken te laten verleiden. Tegen onwil en onkunde valt geen aardig beleid te voeren. Wie studenten onwil en gebrek aan capaciteiten toeschrijft, zegt in feite dat het beleid er geen boodschap aan heeft, en hanteert daarmee zijn opvattingen als dooddoeners. Wie ervan uitgaat dat studenten zich rationeel gedragen, zal achter zorgwekkende studieresultaten gaan zoeken naar de oorzaken ervan in het onderwijs zélf, en in de wijze waarop het béoordelingsstelsel (= beloningsstelsel) is ingericht. Wanneer veel studenten zakken, is ofwel het tentamen te zwaar, ófwel is het voor studenten een verstandige strategie om voor dat vak een relatief hoog zakrisico te nemen. Wie zich-vervolgens de vraag stelt waarom die strategie in dit bepaalde geval effectief zou kunnen zijn, zal zeer waarschijnlijk tot een goed inzicht in de beoordelingssituatie komen, en kan op grond van dat verkregen inzicht goed beleid voeren. Deze rationaliteit houdt niet in dat alle studenten zich dan ook identiek zouden gedragen. Verre van dat. Iedere student brengt zijn eigen doelen, waarden, en capaciteiten mee, en daarom zal hij zich doorgaans ánders gedragen dan veel van zijn medestudenten, zonder minder effectief in zijn gedrag te zijn.

3. Het doel van de student is doorgaans niet wat de docent vindt dat zijn doel zou moeten zijn. Uit die discrepantie komt wederzijds onbegrip voort, dat leidt tot onmachtig beleid.

De docent ziet het tentamen als een bijkomstigheid en een noodzakelijk kwaad; voor de student is het tentamen het enige dat echt telt.

De docent ziet graag dat er vanuit belangstelling voor het vak gestudeerd wordt; voor de student gaat het er om voor het tentamen te slagen.

De docent ziet graag zo hoog mogelijke cijfers; de student gaat het er allereerst om dat hij slaagt, een goed cijfer is daarbij een versiering.

De docent ziet herkansen als een uitzondering voor degenen die door bijzondere omstandigheden gezakt waren; de student ziet zakken en herkansen eerder als een risico dat hij niet kan vermijden zonder bijzonder veel extra tijd in de studie te steken: zakken is een berekend risico.

De docent vraagt veel tijd voor zijn vak; de student springt zo zuinig mogelijk met zijn tijd om, weegt het nut van extra studietijd af tegen de daardoor verminderde kans om te zakken.

De docent vraagt inzicht in het vak, waarmee hij meestal iets bedoelt dat verder gaat dan de tentamenvragen die hij stelt; de student legt zich toe op het kunnen beantwoorden van de vragen die hij op het tentamen verwacht.

De docent ziet graag dat de student zich belangstellend in de geboden stof verdiept; de student wil graag weten welk soort vragen hij op het tentamen mag verwachten.

Dit zijn twee verschillende werelden. Er moeten diepe kloven overbrugd worden om beide denkwerelden op één lijn te krijgen. Het beleid kan leren dat studenten zich richten op die zaken waar het voor hen echt op aan komt. Vervolgens kan het beleid ervoor zorgen dat dat ook de zaken zijn waar het in het onderwijs op aan hóórt te komen. Werkend vanuit de stelling dat studenten zich rationeel gedragen, moet zo`n beleid ook haalbaar zijn.

4. Een examenregeling die eist voor ieder vak geslaagd te zijn, lokt uit dat er vaak gezakt Wordt. De student slaagt met de minste moeite voor alle vakken wanneer hij risico's neemt af en toe te zakken.

Leef je in de situatie van de student in: hij moet slagen, eventueel na herkansing, maar zit met drie onzekerheden:

(b) hij weet slechts bij benadering hoe goed hij de stof beheerst, ook al zou hij precies weten om welk soort vragen het bij dit tentamen gaat.

(c) het tentamen is maar een steekproef: er wordt maar een beperkt aantal vragen gesteld, en daar kan hij pech of geluk bij hebben. Door het steekproefkarakter van het tentamen is de precieze score niet te voorspellen, ook al zou je precies weten hoe goed je de stof beheerst (gegeven de beheersing is de score binomiaal verdeeld, Wilbrink 1978).

Het is duidelijk dat in het oog van deze onzekerheden de student niet in staat is om het risico te zakken geheel tot nul te reduceren. Een bepaald risico zal hij moeten aanvaarden, en de vraag is dan hoe groot of hoe klein

dat risico mag zijn, gegeven de eigen doelen, waarden, financiéle omstandigheden, etcetera. Anders geformuleerd is dit de vraag naar het punt waar de verminderende meeropbrengst van een extra studieinspanning niet meer voldoende is om die extra studieinspanning te rechtvaardigen. De student bepaalt dat punt van juist voldoende (optimale) voorbereiding op intuitieve wijze, gebruik makend van zijn jarenlange studie-ervaringen.

Het is mogelijk om deze strategie van/voor de student te expliciteren in een wiskundig model, een tentamenstrategiemodel (Wilbrink 1978). Met de hulp van zo'n model kun je de effecten van bepaalde beleidsveranderingen doorrekenen, en op die wijze zoeken naar een optimaal beleid. Dat veronderstelt dat het model 6fwel een juiste weergave is van de wijze waarop studenten zich in werkelijkheid gedragen, 6fwel bruikbaar is om het onderwijs zó op te zetten dat studenten zich zullen gáán gedragen volgens de lijnen in het model uitgezet. Hoe dat ook zij, zo'n model maakt onderzoek, evaluatie, en onderwijsbeleid tot vruchtbare activiteiten. Op zijn minst legt het een theoretische basis onder het beleidsmatig handelen, en dat leidt er toe dat het beleid zich positief kan gaan ontwikkelen, in plaats van ad-hoe te blijven functioneren, van de hak op de tak te springen.

5. Een scherpe scheiding tussen 'voldoende' en 'onvoldoende' beheersing van de stof is een fictie. Wie het denken in die termen loslaat, kan tot een beter doordacht beleid komen.

In de bovengeschetste tentamenstrategie kijkt de student heel nuchter tegen de grens zakken-slagen aan: hij mikt er in zijn voorbereiding zó ver boven dat hij een aanvaardbaar risico overhoudt er onder terecht te komen. Dat zou de docent kunnen bedroeven, want het resultaat is dat er nogal wat studenten zakken, dat er veel herkanst wordt. De docent kan zich zorgen maken of die herkansers uiteindelijk wel op een 'voldoende' niveau zitten.

De docent kan hier best tot een rationeel beleid komen, wanneer hij maar afstand doet van het idee dat die grens 'voldoende-onvoldoende' heilig is. En dat aureool van heiligheid verbleekt makkelijk bij deze overwegingen:

(a) het steekproefkarakter van het tentamen betekent dat een scherpe grens voldoende-onvoldoende in tentamenresultatenhiet inhoudelijk te rechtvaardigen is. D.w.z.: het laten slagen van degeen met minimale score, en het laten zakken van degeen die één puntje tekort komt, is niet in inhoudelijke termen te rechtvaardigen.

(b) Afgezien van het steekproefkarakter van het tentamen is er voor de minimaal gewenste stofbeheersing geen scherpe grens aan te wijzen, maar op zijn best een bepaald gebied.

(c) De waardering voor verschillende niveaus van stofbeheersing is ongetwijfeld een geleidelijk stijgende functie van de mate van stofbeheersing, en niet een functie die ergens een steile sprong omhoog maakt (Wilbrink 1980b par. 3.6, -1980c).

Wat ligt dan méér voor de hand dan gebruik te maken van de tentamenstrategieén zoals de studenten die gebruiken?

De docent kan een tentamenmodet opzetten (Van,Naerssen 1976, Wilbrink 1978), waarin met name die tentamenstrategieën een hoofdrol spelen, en waarin de grens zakken-slagen zijn bepaalde plaats heeft. In dat model kun je bijvoorbeeld de grens zakken-slagen gaan verschuiven, en voor verschillende posities nagaan welk effect dat heeft op de tentamenstrategieën, en daarmee op de onderwijsresultaten die behaald kunnen worden bij deze groep studenten. Met behulp van het model kan voorspeld worden welke zak-slaaggrens het onderwijsresultaat optimaliseert.

Eén en ander is iets makkelijker gezegd dan gedaan. Een uitgebreide behandeling van deze methode van zak-slaaggrens bepaling geeft Wilbrink (1980b),waarbij ook effecten van gewijzigde herkansingsregelingen en dergelijke meegenomen worden.

6. Een examenregeling hoeft niet als beoordelingsstelsel gezien te worden. Het kan vruchtbaarder zijn de examenregeling te zien als een afsprakenstelsel waarin de wegen zijn aangegeven die tot slagen leiden.

In het tentamenmodel krijgt de grens zakken-slagen een louter instrumenteel karakter, wat in zekere zin voor de student altijd al het geval was. Het is dan ook beter om aan die grens niet meer de betekenis van het onderscheid 'onvoldoende-voldoende' toe te kennen, maar slechts de betekenis van een formele eis waaraan door de student te voldoen is om te slagen. De eis dat je voor alle vakken moet slagen is (tot op zekere hoogte) inhoudelijk te rechtvaardigen, en begrijpelijk te maken; voor ieder afzonderlijk vak is de zak-slaaggrens daarvan afgeleid, en in relatie tot dat bepaalde vak als niet veel meer dan een formele eis te beschouwen. De examenregeling wordt een afsprakenstelsel, een eenzijdig contract, dat vastlegt aan welke formele eisen-per-vak voldaan moet zijn om voor het examen te slagen. over de afspraken kan nuchter gesproken worden, zonder ondertonen die uit het onvruchtbare denken in termen van onvoldoende en voldoende prestaties stammen. Wanneer deze opvatting gemeen goed is, zal voor geen enkele student het zakken voor een tentamen nog een traumatische ervaring hoeven zijn: het hoort er immers bij, het werkt niet stigmatiserend. Voorzover zakken voor een tentamen redelijkerwijs gezien kan worden als voortvloeiend uit een verantwoorde studiestrategie van de student, mag dat zakken ook geen speciale nadelige consequenties hebben zoals bijvoorbeeld negatieve advisering m.b.t. het verstrekken van een studietoelage.

7. Ook in de conjunctieve examenregeling die als afsprakenstelsel gehanteerd wordt zijn de herkansingen tijdrovend en onproductief. Omdat de conjunctieve regeling niet zonder herkansingen kan,is die regeling inefficiënt.

Wanneer aan het aantal herkansingen geen beperking is opgelegd, is voor de herkansing de optimale tentamenstrategie gelijk aan die voor de eerste opkomst (de student heeft dan hetzelfde aantal tentamengelegenheden voor zich als de eerste keer, en wat tóen optimaal was, moet het ook nü zijn). Wanneer het aantal herkansingen beperkt is, zal bij ruwe benadering nog ongeveer hetzelfde gelden. Dat heeft ingrijpende gevolgen, want het betekent dat de student voor de herkansing waar hij voor slaagt de stof even goed beheerste als voor de voorgaande tentamens waar hij voor zakte (door pech). Met andere woorden: herkansingen leveren niets productiefs op, kosten slechts tijd en energie. Desondanks kun je het onder een conjunctieve examenregeling (voor elk vak slagen) niet zonder

herkansingen stellen, omdat dan ófwel het over-all niveau niet te handhaven is, ófwel zeer veel studenten ten onrechte niet voor het examen zullen slagen. Herkansingen zijn hier een noodzakelijk kwaad.

Het is natuurlijk wel mogelijk om dat noodzakelijk kwaad door geschikte maatregelen een stukje in zijn vervelende effecten te beperken. Bijvoorbeeld kan dat door herkansingen niet pas na drie maanden of zelfs nóg langer te geven, maar snel, zeg na een week. Daardoor zal weliswaar gretiger van de herkansingsregeling gebruik gemaakt worden, waaraan iets te doen is door een kleine bijstelling van die formele grens zakken-slagen, maar zal het totale tijdverlies teruggebracht kunnen worden zónder het 'niveau' aan te tasten. Het doorzichtiger maken van de tentamensituatie helpt ook drastisch:

door het geven van proeftoetsgelegenheid, het geven van voorlichting over het soort vragen waaruit het tentamen zal bestaan, e.d., wordt het de student mogelijk een scherper tentamenstrategie te volgen, met minder zak- risico's (zie Wilbrink 1980b hoofdstuk 4).

8. Uiteindelijk zullen examens compensatorisch moeten worden, waar alleen het over-all resultaat van belang is. Voor afzonderlijke vakken is een opzet als Individueel Studie Systeem een middel om verspillende herkansingen te voorkomen.

Wanneer de herkansingen onder een conjunctieve examenregeling noodzakelijkerwijs tot tijdverlies leiden, is het zaak uit te kijken naar een ander soort examenregeling waarin geen herkansingen (op deze schaal) meer voorkomen. Het voor de hand liggende alternatief is een compensatorische examenregeling, waarin het cijfergemiddelde over alle vakken tezamen aan een vastgesteld minimum moet voldoen om te slagen.

Met een compensatorische examenregeling kan hetzelfde afstudeerniveau gerealiseerd worden, maar dan zónder herkansingen dus zónder tijdverlies.

Het is niet noodzakelijk om bij een compensatorische regeling iedere herkansingsmogelijkheid voor afzonderlijke vakken af te schaffen, maar het is wel het meest logisch om de regeling zo op te zetten dat voor ieder vak of deelvak maar één tentamengelegenheid geboden wordt. om dat behoorlijk te laten verlopen moet er wel voldoende doorzichtigheid aan de student geboden worden, bijvoorbeeld door proeftoetsgelegenheid.

Verschillende varianten zijn denkbaar: mét of zónder dossierdiploma; mét of zónder de mogelijkheid om langer over de studie te doen dan de studieduur; eventueel met herkansingsmogelijkheden of minima per vak. De laatste varianten zijn van belang voor korte programma's zoals in de propedeuse, zie Wilbrink (1978, hoofdstuk g). De tijdbesparing van een compensatorische regeling t.o.v. de conjunctieve kan aanzienlijk zijn, zeg zo'n 10 tot 20 procent. Het hoeft geen betoog dat in zowel persoonlijke als maatschappelijke kosten/baten dat aanzienlijke sommen gaat belopen.

Een heel ándere mogelijkheid om aan onproductieve herkansingen te ontkomen is door het hanteren van een Individueel Studie Systeem opzet voor afzonderlijke vakken. Dit is een soort contractonderwijs waaraan geen afsluitend tentamen verbonden is, tenminste niet een tentamen waar de student nog eens voor zou kunnen zakken in de klassieke betekenis. Zo'n ISS is niet voor ieder vak geschikt, is ook niet een volledig antwoord op de problematiek van de herkansingen, maar laat zich zeker met een compensatorische regeling combineren. Enige studie over compensatorische regelingen is te vinden in Wilbrink (1978 hoofdstuk 8; 1977 paragraaf 6.6; 1979). Voor de problematiek van zak-slaag grenzen bij toetsen in ISS zie Wilbrink (1980a, c).

Van Naerssen, R.F. Het derde tentamenmodel met een toepassing. Tijdschrift voor Onderwijs Research, 1976, 2, 161-171. open access

Wilbrink, B. Universitaire examenregeling: conjunctief of compensatorisch? in K.D. Thio en P. Weeda (redactie) Examenproblematiek. Stichting voor Onderzoek van het Onderwijs. Den Haag: Staatsuitgeverij, 1979. html

Wilbrink, B. Enkele radikale oplossingen voor kriterium gerefereerde grensskores. Tijdschrift voor Onderwijs Research, 1980, 5, 112-125. a. html

Wilbrink, B. Passing scores on domain referenced tests: an improved decisiontheoretic methodology for optimization. Amsterdam: COWO, 1980 c. pdf

Wilbrink, B. Uitval en vertraging in het W.O.: een overschat probleem. Onderzoek van onderwijs, 1980, 9 nr. 4, in druk. d. html


percentages gezakten 1e opkomst [sheet]

strafrecht	44	Interne I	38
Inleiding	49	Pathologie ë	45
Practicum	53	Chirurgie I	35
Rechtssociologie	37	Interne ë	51
Ideeëngeschiedenis	53	Pathologie ëI	28
Burgerlijk recht	71	Chirurgie ë	9
Practicum ë	56	Kindergeneeskunde	19
Staathuishoudkunde	28
Soconomie	12
Propedeuse rechten Leiden '79-'80 Crombag et al. O.v.O. Leiden		3e en 4e jaar geneeskunde Groningen '77-'78 Cohen-Shotanus en Mooiweer ORD '79


wiskunde	28	Hoofdvak deel 1	45
Natuurkunde	70	Hoofdvak deel 2	57
Fysische chemie	42
Organische chemie	33
Dierkunde	19
Staathuishoudkunde	28
Propedeuse Landbouwhogeschool januari '78 Muggen C.O.v.O. Wageningen augustus 1979		Sociale geografie propedeuse '79-'80 VU A'dam Hoeksma, Bernaert, van Os Afdeling Onderwijsresearch VU


percentages gezakten 1e opkomst [sheet]

strafrecht	44	Interne I	38
Inleiding	49	Pathologie ë	45
Practicum	53	Chirurgie I	35
Rechtssociologie	37	Interne ë	51
Ideeëngeschiedenis	53	Pathologie ëI	28
Burgerlijk recht	71	Chirurgie ë	9
Practicum ë	56	Kindergeneeskunde	19
Staathuishoudkunde	28
Soconomie	12
Propedeuse rechten Leiden '79-'80 Crombag et al. O.v.O. Leiden		3e en 4e jaar geneeskunde Groningen '77-'78 Cohen-Shotanus en Mooiweer ORD '79


wiskunde	28	Hoofdvak deel 1	45
Natuurkunde	70	Hoofdvak deel 2	57
Fysische chemie	42
Organische chemie	33
Dierkunde	19
Staathuishoudkunde	28
Propedeuse Landbouwhogeschool januari '78 Muggen C.O.v.O. Wageningen augustus 1979		Sociale geografie propedeuse '79-'80 VU A'dam Hoeksma, Bernaert, van Os Afdeling Onderwijsresearch VU

Voordracht & handout Nationaal Congres T.U. Eindhoven Voorafgegaan door de tekst in A. I. Vroeijenstijn (Red.) (1980), Kwaliteitsverbetering hoger onderwijs. Vierde nationaal congres onderzoek van het wetenschappelijk onderwijs. Voorburg: Stichting Nationaal Congres, 380-409.

Beleid bij tentamens en examens

Ben Wilbrink

tekst in het congresboek

Literatuuropgaven.

Beleid bij tentamens en examens

Ben Wilbrink

Effect van verbeterde doorzichtigheid van de toetsing op benodigde tijd om te slagen (verticaal)

Beleid bij tentamens en examens.

Voordracht & handout Nationaal Congres T.U. Eindhoven
Voorafgegaan door de tekst in A. I. Vroeijenstijn (Red.) (1980), Kwaliteitsverbetering hoger onderwijs. Vierde nationaal congres onderzoek van het wetenschappelijk onderwijs. Voorburg: Stichting Nationaal Congres, 380-409.