Elke dag worden in Nederland heel veel toetsen afgenomen. Van kleuters tot inburgeraars: niemand ontkomt er meer aan. Hoeveel toetsen maakt een mens eigenlijk in zijn leven? Maar zijn al die toetsen wel even zinvol?
Beslissing
Aan bijna elke toets is een beslissing gekoppeld. Soms een vrij onschuldige beslissing, bijvoorbeeld of je mee moet doen aan een bijscholing en of je een 7 of toch een 8 op je rapport krijg. Maar soms ook een (heel) belangrijke beslissing: welke vervolgopleiding je mag gaan doen en zelfs of je een verblijfsvergunning krijgt.
Betrouwbaarheid
Elke toets heeft een bepaalde betrouwbaarheid, die achteraf kan worden bepaald. We bepalen de betrouwbaarheid met behulp van een schatting. Een hoge betrouwbaarheid houdt in dat de toets bij een bepaalde kandidaat elke keer (vrijwel) hetzelfde resultaat oplevert.
Hoe betrouwbaarder de toets, hoe groter de kans dat de juiste beslissing wordt genomen. Hoe lager de betrouwbaarheid, hoe groter de kans op een verkeerde beslissing. Vooral rond de zak/slaaggrens (cesuur) zullen dan kandidaten slagen die eigenlijk hadden moeten zakken. En andersom.
Daarom zijn er normen voor de geschatte betrouwbaarheid van een toets.
Betrouwbaarheid* | Beoordeling toets |
0,80 en hoger | goed tot zeer goed |
0,60 tot 0,80 | matig tot voldoende voor een summatieve toets/ voldoende tot goed voor een formatieve toets |
0,60 en lager | onvoldoende |
*Cronbach’s alpha of KR-20
Bij een toets met een betrouwbaarheid die lager is dan 0,60, had je in feite net zo goed de beslissing kunnen nemen door voor elke kandidaat met een dobbelsteen te gooien. 1, 2 of 3? Gezakt! 4, 5 of 6? Geslaagd! Dat kost veel minder tijd en het is net zo (on)betrouwbaar (maar natuurlijk wel nog minder valide).
Hoe vergroot je de betrouwbaarheid van een toets?
Het is natuurlijk belangrijk dat de kwaliteit van de vragen goed is en dat bij open vragen een objectief beoordelingsmodel beschikbaar is. Het vooraf testen van de vragen in een vergelijkbare doelgroep geeft veel informatie over de kwaliteit van de vragen en maakt het samenstellen van een betrouwbare toets beter mogelijk. Ook kun je achteraf een of enkele vragen uit de toets verwijderen als blijkt dat ze de betrouwbaarheid negatief beïnvloeden.