Risicogestuurd toezicht in het onderwijs

ACHTERGROND - Kan de Inspectie van het Onderwijs aan de hand van informatie die zij heeft over scholen risicogestuurd toezicht in het onderwijs mogelijk maken?

Het Onderwijsverslag verscheen vorige week al en ik was van plan er een mooie grafiek uit te selecteren. Maar zoals wel vaker dwaalt mijn aandacht af, als er een interessante voetnoot bijstaat. In de webversie van het Onderwijsverslag staat een verwijzing naar een proefschrift uit 2012, van A. Timmermans.

Dat proefschrift gaat over de “toegevoegde waarde” indicator. Omdat scores aan het einde van een onderwijsloopbaan weinig zeggen over de kwaliteit van een school, is een “toegevoegde waarde” indicator in theorie veel geschikter om de kwaliteit van scholen te bepalen. De Inspectie heeft in diverse documenten aangegeven bezig te zijn met studies naar de bruikbaarheid van deze indicator. Het proefschrift “Value added in educational accountability: Possible, fair and useful?” van Timmermans geeft een goed overzicht van de theorieën, de beschikbare modellen en de obstakels bij het invoeren van een dergelijke indicator. Het is bovendien goed leesbaar en gericht op een actueel vraagstuk van maatschappelijk belang.

Het interessantste hoofdstuk vind ik aan het einde. Het gaat over het risicogestuurde toezicht dat de Inspectie hanteert.
Een simpele uitleg daarvan zag ik donderdagavond op televisie. Medici kunnen sinds vandaag op basis van een bepaalde formule uitrekenen hoeveel procent kans een hart- en vaatpatiënt heeft om in de komende tien jaar opnieuw gezondheidsklachten te ontwikkelen. Een aantal variabelen wordt daarbij gemeten: bijvoorbeeld de aard van voorgaande klachten en bloedwaarden. Het voorspellende model staat op een half A4-tje en schijnt revolutionair te zijn.

Wat zou het mooi zijn als het ook zo werkt bij scholen. De Inspectie wil vroegtijdig scholen opsporen waarvan de kwaliteit onder de maat dreigt te raken. Daarbij wil je de goede scholen zoveel mogelijk met rust laten. Maar hoe doe je dat? Waar kijk je naar? Welke variabelen zijn voorspellend?

Het laatste hoofdstuk van het proefschrift laat zien welke dataset de Inspectie heeft van scholen: een lange lijst met een grote diversiteit aan variabelen.  Of een school “onder de maat” presteert wordt hier geoperationaliseerd door te kijken naar zowel de prestaties van leerlingen aan het einde van groep 5, en door een schatting te maken van de toegevoegde waarde tussen groep 3 en 5. Onderstaand schema laat zien welke variabelen voorspellend zijn.

A. Timmermans (2012).  Value added in educational accountability: Possible, fair and useful?

De eerste voorspellende variabele is het opleidingsniveau van de ouders. Scholen met hoge percentages kinderen van hoger opgeleide ouders, scoren minder vaak “onder de maat”. Deze variabele heeft (niet zo gek) vooral voorspellende waarde als het gaat om het eindniveau in groep 5, niet zozeer voor toegevoegde waarde.

De tweede voorspellende variabele zijn de eindscores van de groep van vorig jaar. Scholen die een voorgaand cohort op hoog niveau wisten te brengen, scoren zelden onder de maat: slechts in 6% van de gevallen. Als een school gemiddelde prestaties laat zien op voorgaande cohorten, maar wel voornamelijk kinderen van hoger opgeleide ouders heeft, dan scoort 16% onder de maat.

Vervolgens is gekeken naar de mate waarin scholen extra zorg bieden, en de effecten van deze zorg systematisch en jaarlijks evalueren. Scholen die niet systematisch zorg bieden en deze extra zorg niet regelmatig evalueren, scoren in 60% van de gevallen onder de maat.

Op basis van een paar variabelen, kun je zo een grote groep scholen als “risicovol” bestempelen, en daar extra inspanning verrichten. Je wilt dan in ieder geval de onderpresterende scholen niet missen, en onnodig toezicht bij goed presterende scholen beperken.

De onderzoekers geven zelf aan dat het model  nog verre van ideaal is:

… if risk models for predicting underperformance of primary schools would be applied in the context of educational accountability, a large number of schools need further investigation to find nearly all underperforming schools. For example based on the regression tree analysis 59% of the schools need further investigation to find 69 of the 76 underperforming primary schools.

De variabelen die de prestaties voorspellen, zijn niet accuraat genoeg om echte efficiencywinst te boeken. Maar je kunt het ook omdraaien. Hoewel het dus moeilijk is om slecht presterende scholen te voorspellen, blijkt er een groep van ongeveer 40% van de scholen te zijn, die een heel klein risico lopen dat ze onder de maat gaan presteren.

De conclusie van het hoofdstuk is best opmerkelijk, zeker gezien de stelligheid waarmee de IvhO stelt dat haar toezichtrisicogestuurd is:

… this indicates that risk models cannot yet be adequately applied in the practice of educational accountability. Future research is needed to show which sets of characteristics are consistently related to underperformance of schools.

Risicogestuurd toezicht is op basis van de huidige modellen dus niet goed mogelijk. In de samenvatting van het proefschrift staat het wat milder: ‘Hoewel een risico model niet zo accuraat is als men mag hopen leidt het toepassen in onderwijs toezicht toch tot een verbetering van de efficiëntie.’

Via Onderwijs in Grafieken.

  1. 1

    het probleem met risicobeoordelingen is dat je niet weet wat je niet weet. En dus alleen kijkt naar bekende risico’s. Dit gebeurde bij het bankentoezicht, het bulgarentoezicht en straks bij het scholentoezicht. Waar is de schoolinspecteur gebleven die als oud onderwijzer weet waarop hij moet letten en een gefundeerd oordeel kan vellen over hoe een school presteert. En dat willen ze dan vervangen door een invullijstje, een model dat bij toezicht op milieuhandhaving al heeft gefaald. Ik zal maar eens vragen hoeveel bije\les kost.

  2. 2

    Toko, het voorbeeld van het risico op hart- en vaatziekten laat zien dat er sommige omstandigheden zijn waar dergelijke modellen klaarblijkelijk wel werken (al zou ik daar graag wat meer over willen weten). Dit onderzoek over de toegevoegde waarde van scholen lijkt me buitengewoon nuttig en lijkt goed te zijn uitgevoerd. Het is dus nuttig onderzoek over een maatschappelijk heel belangrijk onderwerp. En de uitkomst, dat de huidige modellen niet kunnen voldoen, lijkt me uitstekend gefundeerd.

  3. 3

    Het type model (Cox regressie) in dat hart- en vaatziektenonderzoek is absoluut niet nieuw, alleen al op http://stats.stackexchange.com/ – een populaire Q&A site voor statistici levert “Cox regression prediction” via Google meer dan 1000 hits op. Wat nieuw is, dat is (de omvang van) de onderliggende data. Maar om er zoveel poeha mee te maken om de TV te halen … Dit soort diagnostische modellen is sinds de jaren 90 al zeer bruikbaar in de praktijk. Het wordt nu als ei van Columbus voorgesteld, maar dat is opgeklopt. Bij mij roept het eerder de vraag op waarom ze niet eerst een Bayesian Netwerk hebben geprobeerd, daar zijn die andere modellen heel succesvol mee (geweest en nog).

    Dat model van die beslissingsboom uit het proefschrift heeft hooguit een beschrijvende, maar geen voorspellende waarde. Het zijn geen knoppen waar je aan kunt draaien en waar je de zaak alsnog mee kunt veranderen. Het opleidingsniveau van de ouders is bijvoorbeeld helemaal niet veranderbaar, gegeven de schoolpopulatie.

    Het grappige is dat (regressie met) een beslissingsboom weliswaar begrijpelijk lijkt te zijn, maar dat van alle voorspellingsmethodes die we kennen dit één van de minst effectieve is.

  4. 5

    Rekenmodellen zijn eerder een hersenziekte dan een vorm van wetenschap, wat mij betreft. Het geloof — want dat is het — dat je de essentie van complexe en/of sociale systemen kunt vangen in een reeks getallen en formules, is gevaarlijk en destructief. Het veroorzaakt veel leed in onze samenleving.

  5. 6

    @5: Dirk,

    ik denk dat rekenmodellen wel nuttig zijn als meetgegevens duidelijk zijn.
    “hoeveel sigaretten rookt u per week” levert min of meer duidelijke antwoorden, en het vaststellen van longkanker is – in bepaalde stadia – ook tamelijk betrouwbaar.
    Het verband blijkt dan uit rekenwerk.

    Ik ben met u eens dat dit niet opgaat bij te complexe systemen.
    of beter gezegd: systemen met te veel variabelen.