We komen het in de praktijk regelmatig tegen: een kandidaat maakt een toets in een digitaal systeem en ziet bij zijn resultaten dat hij 57% van de punten heeft gescoord. ‘Hoera,’ denkt hij, ‘57%, dat is bijna een 6. Ik ben geslaagd!’. De kandidaat kijkt niet verder en ziet niet dat bij dat percentage het cijfer 4,1 hoort. Maar het zou ook een 5,3 kunnen zijn. Of gewoon de melding ‘gezakt’. Pas later ontdekt hij de onvoldoende en dient hij soms zelfs bezwaar in. Want hij had toch meer dan 55% van de punten gescoord? Dan heeft hij toch recht op een voldoende?
Waar komt deze gedachte vandaan?
Bijna iedereen heeft in zijn verleden op de basisschool en in het voortgezet onderwijs toetsen gemaakt waarop je precies 100 punten kon scoren. Als je 55 van de 100 punten had behaald, dan kreeg je een 5,5. En dat is een voldoende. Al zijn (centrale) examens meestal van een heel andere puntentelling en cesuur voorzien, de kandidaat, vaak een leek op het gebied van toetsing, heeft daar weinig weet van. Ook toetsontwikkelaars hanteren het traditionele uitgangspunt van 100 punten en een cesuur van 55% nog vaak, zo merken wij tijdens onze trainingen als het onderwerp cesuur aan de orde is.
Maar klopt dit wel?
Er zijn meer (en betere) manieren om de cesuur te bepalen dan eenvoudig te zeggen: 55% is voldoende. Want laten we wel wezen: zijn we altijd tevreden als iemand net meer dan de helft van de antwoorden goed heeft? Stel je voor dat
het gaat om een toets voor artsen of verpleegkundigen en dat de kandidaat in de praktijk ook maar in 55% van de gevallen juist handelt? Dan zouden er veel fouten worden gemaakt en dat is niet in het belang van de patiënt! Natuurlijk kun je niet eisen dat iedereen 100% scoort, want iemand kan een vraag of opdracht niet begrijpen (en dat kan ook aan de kwaliteit van de vraag liggen) of een enkel ding niet weten of kunnen. Maar 55% is een lage cesuur, die lang niet altijd past bij het gewenste beheersingsniveau van de kandidaten.
Hoe kan het ook?
Ten eerste is er het onderscheid tussen de absolute en de relatieve methode om een cesuur te bepalen, en daarbinnen zijn ook weer verschillende mogelijkheden. Twee bekende absolute methodes zijn de methode van Ebel (Ebel, 1972) en de methode van Angoff (1971). Bij deze methodes worden de vragen gewogen op moeilijkheid en relevantie om tot een cesuur te komen. Angoff gaat daarbij uit van de kandidaten die de stof nét voldoende beheersen, de zogenaamde zesjesstudent. Verschillende docenten (experts) schatten dan per vraag in hoeveel procent van de zesjesstudenten de vraag goed zullen beantwoorden. Het gemiddelde van de gemiddelde percentages, levert de cesuur op.
Een bekende relatieve methode is de methode Wijnen (Wijnen, 1971), waarbij de gemiddelde score het uitgangspunt is. Er zijn ook cesuurmethoden die zowel relatief als absoluut zijn, zoals de methode Cohen-Schotanus (Cohen-Schotanus e.a., 1996). Hierbij wordt de absolute cesuur afgezet tegen de score van de hoogst scorende kandidaten.
Elke methoden heeft voor- en nadelen. Zo geeft een absolute cesuur al van te voren duidelijkheid, maar is ze relatief bewerkelijk vast te stellen. Bij een relatieve cesuur kun je de moeilijkheid van de toets meewegen, maar loop je het risico dat de cesuur erg laag uitvalt. Hanteren van een combinatiemethode heft dit laatste nadeel op.
Bij een toets met gesloten vragen kan het goed zijn om rekening te houden met de kansscore (zie voor meer informatie Teelen Kennismanagement, 2015). En bij veel examens wordt achteraf nog een controle gedaan op de cesuur, waarbij deze nog kan worden bijgesteld. Dit is bijvoorbeeld het geval bij de centrale schoolexamens. Als blijkt dat een examen moeilijker was dan van tevoren verwacht, wordt de cesuur met de zogenaamde n-term gecorrigeerd. Deze variabele wordt na afloop van de examens voor elk vak apart berekend. Op die manier wordt de absolute cesuur dus achteraf, relatief, bijgesteld.
Conclusie
De aanname dat 55% van de punten altijd tot een voldoende moet leiden, komt nog veel voor, maar klopt niet. Het is beter om voor elke toets opnieuw de optimale cesuur te bepalen. Dat kan voor de ene toets 68% zijn, voor de volgende 60% en voor een derde 63%. Hoe meer wij als toetsontwikkelaars de cesuur per toets vaststellen, hoe sneller we het verwachtingspatroon van kandidaten doorbreken.
Literatuur
- Angoff. W. H. (1971). Scales, norms and equivalent scores. In: R.L. Thorndike (red.), Educational Measurement. Washington D.C.: American Council on Education.
- Cohen-Schotanus, J., Vleuten, C.P.M. van der, & Bender, W. (1996). Een betere cesuur bij tentamens. Onderzoek van onderwijs, 25, 54-55.
- Ebel, R.L. (1972). Essentials of Educational Measurement. Englewood Cliffs, N.J.: Prentice Hall.
- Teelen Kennismanagement (2015). Toetskwaliteit in de praktijk. Hoe maak ik goede toetsen met gesloten en open vragen? (Teelen) – hfdst 7.5.4)
- Wijnen, W.H.F.W. (1971). Onder of boven de maat; een methode voor het bepalen van de grens voldoende/onvoldoende bij studietoetsen. Lisse: Swets & Zeitlinger.
Dit artikel is ook verschenen in het tijdschrift Examens in augustus 2017 en geschreven door Jolanda Soeting, onderwijskundige/toetsdeskundige bij Teelen.