2.2.7. Principes bij de keuze van psychodiagnostische instrumenten
Als de psycholoog psychodiagnostische instrumenten wil inzetten, is het van belang dat hij zich informeert over de instrumenten die voor het beoogde doel beschikbaar zijn. Meestal kunnen meerdere instrumenten met eenzelfde meetpretentie in aanmerking komen. Dan is het extra van belang om de kwaliteit van deze instrumenten mee te laten wegen bij het maken van een keuze. De informatie die een testuitgever daarover verstrekt, bijvoorbeeld in de handleiding, kan daarbij behulpzaam zijn.
Daarnaast kan ook een objectief kwaliteitsoordeel van de COTAN beschikbaar zijn en als hulpmiddel dienen voor de psycholoog bij het maken van een keuze tussen instrumenten. Uitvoerige informatie over de werkwijze van de COTAN is te vinden op de website van het NIP. De COTAN beoordelingen zijn voor abonnementhouders te raadplegen in de online COTAN documentatie; ook kunnen losse testbeoordelingen worden opgevraagd.
De COTAN beoordeelt de kwaliteit van een psychodiagnostisch instrument op zeven criteria: uitgangspunten van de testconstructie, kwaliteit van het testmateriaal, kwaliteit van de handleiding, normen, betrouwbaarheid, begripsvaliditeit en criteriumvaliditeit; zie BOX 8 voor een nadere toelichting. Op elk van deze criteria kan de beoordeling ‘onvoldoende’, ‘voldoende’ of ‘goed’ luiden. Het is dus een genuanceerd beoordelingssysteem: de COTAN verleent niet een algemeen keurmerk “goedgekeurd psychodiagnostisch instrument” en ontraadt evenmin het gebruik van bepaalde instrumenten, ook niet als ze op een of meer van de zeven criteria als ‘onvoldoende’ worden beoordeeld.
Het is en blijft de verantwoordelijkheid van de psycholoog om instrumenten te kiezen die van de hoogst mogelijke kwaliteit zijn en passen bij de vraagstelling. Waar artikel 101 ‘Gebruik van doeltreffende en doelmatige methoden’ van de Beroepscode de psycholoog de professionele verantwoordelijkheid oplegt om te kiezen voor methoden waarmee hij het beoogde doel zo goed en zo efficiënt mogelijk kan worden bereikt, geldt dat immers ook voor de keuze van testinstrumenten.
Wat betekent het nu in het gebruik van een psychodiagnostisch instrument als dit ‘voldoende’ of ‘goed’ scoort op een van de zeven beoordelingscriteria van de COTAN? In BOX 8 wordt naast een korte toelichting gegeven op de beoordelingscriteria van de COTAN ook een aantal voorbeelden gegeven waarin een beoordeling ‘onvoldoende’ op zijn plaats is.
BOX 8: Beoordelingscriteria van de COTAN
- Uitgangspunten van testconstructie: worden het te meten construct en de theoretische achtergrond ervan, het gebruiksdoel van het instrument en de doelgroep duidelijk beschreven? Ook de operationalisatie moet worden verantwoord: hoe zijn de items tot stand gekomen en is aannemelijk dat zij voortvloeien uit de definitie van het construct? Als bij een instrument bijvoorbeeld het theoretisch model dat eraan ten grondslag ligt niet wordt beschreven, of als uitleg over het proces van operationalisatie ontbreekt, kan een onvoldoende op dit criterium worden gegeven.
- Kwaliteit van het testmateriaal: zijn de instructie, de items en de scoring gestandaardiseerd en worden er voldoende aanwijzingen gegeven voor de geteste? Een onvoldoende op dit criterium kan gegeven worden als bijvoorbeeld de items multi-interpretabel of onnodig ingewikkeld geformuleerd zijn of als er geen duidelijke aanwijzingen worden gegeven over hoe de antwoorden moeten worden gescoord (wat bij een mondeling en individueel af te nemen instrument het meest speelt). Bij een instrument dat via de computer wordt afgenomen worden aanvullende kwaliteitseisen gesteld, onder andere aan de schermkwaliteit en aan de beveiliging van de gegevens.
- Kwaliteit van de handleiding: wordt er informatie gegeven ter ondersteuning van de testgebruiker bij afname en interpretatie van het instrument? Als bijvoorbeeld een verzameling wetenschappelijke artikelen wordt aangeleverd als handleiding, dan krijgt het instrument een onvoldoende beoordeling op dit criterium. De handleiding moet namelijk het gebruik van het instrument in de praktijk op een toegankelijke wijze ondersteunen, onder meer door het bespreken van casus en door een samenvatting van de onderzoeksresultaten.
- Normen: wat is de kwaliteit van de normen en de informatie die daarover wordt verschaft? Zijn de normgroepen van voldoende omvang en vooral: zijn ze representatief voor de beoogde doelgroep en gelet op het doel van het instrument? Als van de steekproef die is gebruikt om de normgegevens te verzamelen geen duidelijke beschrijving wordt gegeven, of als de omvang of de representativiteit tekortschiet, zal dit tot een onvoldoende beoordeling op dit criterium leiden.
- Betrouwbaarheid: in welke mate heeft de testscore geen last van willekeurige meetfouten? De meetnauwkeurigheid is uiteraard altijd van belang, en bij veel doelen (bijvoorbeeld toelating tot speciaal onderwijs) is het voor de belanghebbenden extra belangrijk zo nauwkeurig mogelijke uitkomsten te verkrijgen. Voor het beoordelen van de betrouwbaarheid kunnen gegevens over verschillende betrouwbaarheidscoëfficiënten worden gerapporteerd. De data waarop deze zijn berekend moeten representatief zijn voor de doelgroep en het doel van het instrument. Als er geen beschrijvende informatie wordt gegeven over het betrouwbaarheidsonderzoek of als de gerapporteerde waarden onder de maat zijn, dan wordt een onvoldoende gegeven op dit criterium.
- Begripsvaliditeit: meet het psychodiagnostisch instrument inderdaad de eigenschap die wordt verondersteld? Ook hier geldt dat de data representatief moeten zijn voor de doelgroep en het doel van het instrument. Veelgebruikte methoden voor het aantonen van de begripsvaliditeit zijn factoranalyse, het vergelijken van gemiddelde scores van groepen waarvan men mag verwachten dat ze verschillen zullen vertonen op de betreffende eigenschap en het berekenen van correlaties met instrumenten die hetzelfde begrip zouden moeten meten (soortgenoten). Deze onderzoeken zijn elk op zichzelf nog geen aanleiding tot een voldoende beoordeling op dit criterium. Slechts meer uitgebreid onderzoek naar zowel de interne structuur als de verbanden met externe variabelen kan leiden tot de beoordeling ‘voldoende’ of ‘goed’.
Criteriumvaliditeit: in hoeverre is de testscore een goede voorspeller van niet-testgedrag, van gedrag in de praktijk? Hierbij kan men bijvoorbeeld bij een psychodiagnostisch instrument dat wordt gebruikt voor personeelsselectie denken aan de voorspellende waarde van dat instrument voor het latere functioneren van de werknemers. Een onvoldoende beoordeling op dit criterium kan worden gegeven als het valideringsonderzoek onvoldoende bewijs levert voor de voorspellende waarde van het instrument. Ook kan een onvoldoende worden gegeven als het onderzoek met heel kleine steekproeven is uitgevoerd of als de criteriummaten weinig relevant of van geringe kwaliteit zijn.
Uiteraard verdient het de voorkeur dat de psycholoog instrumenten inzet die op zoveel mogelijk criteria van de COTAN ten minste de kwalificatie ‘voldoende’ hebben gekregen. Maar dat wil niet zeggen dat instrumenten die op een bepaald criterium geen ‘voldoende’ beoordeling hebben verworven niet zinvol en verantwoord zouden kunnen worden gebruikt. Indien een instrument op één of meer van de criteria als ‘onvoldoende’ is beoordeeld, of wanneer er (nog) geen COTAN beoordeling beschikbaar is, dan dient de psycholoog het gebruik van dit instrument goed te kunnen beargumenteren. Hij dient zich bewust te zijn van eventuele onvolkomenheden van het instrument, deze zo mogelijk bij de toepassing te ondervangen en er bij de interpretatie van de resultaten rekening mee te houden.
De psycholoog zou geneigd kunnen zijn om te kijken naar de test met de meeste ‘voldoendes’, terwijl de context van de individuele cliënt bepalend dient te zijn voor de keuze van het instrumentarium. Hij moet zijn keuze kunnen onderbouwen en motiveren. Uiteraard zijn er ook grenzen: hoewel de COTAN zich verre houdt van het aanbevelen of ontraden van een instrument, is een groot aantal ‘onvoldoendes’ wel een signaal. Het kan wijzen op een in potentie goed instrument waarvan de onvolkomenheden door verder onderzoek en ontwikkeling nog verholpen zouden kunnen worden. Het kan echter ook zijn dat de psycholoog, na het lezen van de COTAN toelichting op de beoordeling, tot de conclusie komt dat het instrument overduidelijk is achtergebleven bij de stand van de wetenschap. In dat geval zou hij, mede gelet op artikel 16 ‘Professionele standaard’, zich moeten afvragen of hij het betreffende instrument wel kan en wil inzetten.
Naast de afwegingen over de kwaliteit van een instrument moet de psycholoog zich bij de keuze afvragen of hij zelf op grond van opleiding, training en ervaring voldoende gekwalificeerd is om een bepaald instrument te gaan gebruiken (artikel 105 ‘Kwalificatie’).
Bij de keuze van psychodiagnostische instrumenten is het in toenemende mate van belang dat de psycholoog zich afvraagt of het instrument in staat is een zuiver beeld van de eigenschappen van de cliënt te geven, ongeacht diens leeftijd, sekse, taal of cultuur. Artikel 58 ‘Respect voor eigenheid en diversiteit’ verplicht de psycholoog hiertoe. Het onderzoek naar ‘fairness’ of ‘testonpartijdigheid’ van instrumenten wordt door de COTAN sinds medio 2015 expliciet als aanvulling op de beoordeling beschreven. Zie ook het Fairness addendum van de COTAN op de website van het NIP en de publicatie van Huijding, Hemker, & Van den Berg (2012).
Juist om de reden dat de psycholoog inzicht moet hebben in de mogelijkheden en beperkingen van een instrument en in de plus- en minpunten ervan – hetgeen voortvloeit uit artikel 101 ‘Gebruik van doeltreffende en doelmatige methoden’ − is het niet toereikend om alleen maar kennis te nemen van de zeven uitkomsten van de COTAN beoordeling. Het rijtje onvoldoendes, voldoendes en goeds zegt veel, maar niet alles. Ook van de toelichting die bij elke beoordeling wordt gegeven − en daar een onlosmakelijk deel van uitmaakt − zou de psycholoog kennis moeten nemen. Deze bevat, naast beschrijvende informatie en samengevatte onderzoeksgegevens, bij elk criterium de afwegingen en argumenten van de beoordelaars om tot de gegeven beoordeling te komen en waar mogelijk de beperkingen in het gebruik van het instrument.
Twee voorbeelden kunnen duidelijk maken waarom het belangrijk is van de toelichting van de COTAN kennis te nemen. Ten eerste: de Beroepscode verlangt dat men bij het gebruik van recent ontwikkelde methoden waarover nog niet zoveel bekend is extra voorzichtig te werk gaat (artikel 17 ‘Zorgvuldigheid en voorzichtigheid bij nieuwe methoden’). Van veel psychodiagnostische instrumenten die tot voor kort als een ‘papier-en-potlood test’ werden aangeboden, worden digitale (online) versies gemaakt; op bepaalde toepassingsgebieden zijn digitale (online) versies tegenwoordig eerder regel dan uitzondering. Doorgaans brengt dat niet alleen verschillen in instructie en voorbeelden met zich mee, maar vaak ook in de presentatie van de items zelf. Men kan, als er door de testauteurs of -uitgevers geen aanvullend onderzoek is gedaan, niet voetstoots aannemen dat de schriftelijke en de digitale versie equivalent zijn. In het geval er sprake is van zowel een papier-en-potlood- als een digitale versie zal in de toelichting daarop worden ingaan zodat de psycholoog extra informatie krijgt om een goede afweging te maken bij de keuze van een instrument. Overigens gaan de ontwikkelingen op het terrein van nieuwe vormen van digitale diagnostiek en testgebruik zeer snel, zoals bijvoorbeeld serious games en situational judgement tests. Ook bij deze nieuwe vormen is zorgvuldigheid en voorzichtigheid geboden.
Een tweede voorbeeld betreft het criterium ‘betrouwbaarheid’. De beoordeling zelf bestaat uit één samenvattende waardering, waaraan soms een voetnoot wordt toegevoegd als bijvoorbeeld het oordeel voor subgroepen verschillend is, want juist bij betrouwbaarheid kunnen de gevonden coëfficiënten voor verschillende leeftijdsgroepen flink uiteenlopen, en niet zelden van ‘onvoldoende’ tot ‘goed’. Soortgelijke voetnoten komen ook voor bij andere criteria, zoals normering en begripsvaliditeit. In de toelichting wordt dan het verschil in het oordeel op een volledige en genuanceerde manier weergegeven en daarom is het lezen van de toelichting een belangrijke en noodzakelijke ondersteuning bij het maken van een verantwoorde keuze voor een instrument.
Uit bovenstaande wordt duidelijk dat, hoe waardevol de COTAN beoordeling van psychodiagnostische instrumenten ook is, het niet meer maar ook niet minder dan een hulpmiddel voor de psycholoog is. Het kiezen van en werken met psychodiagnostische instrumenten blijft te allen tijde de eigen verantwoordelijkheid van de psycholoog. Verwacht wordt dat de psycholoog ontwikkelingen in de psychodiagnostiek en psychometrie die relevant zijn voor zijn vakgebied actief volgt en zich, conform artikel 100 ‘In stand houden en ontwikkelen professionele deskundigheid’, zonodig bijschoolt. In de geestelijke gezondheidszorg heeft bijvoorbeeld Routine Outcome Monitoring (ROM), het doen van herhaalde metingen bij een cliënt om onder meer de behandeling te volgen en evalueren, een belangrijke plaats gekregen. Dat houdt in dat de psycholoog zich daarvoor ook zal moeten verdiepen in aan herhaalde metingen gerelateerde (test)technische vragen, zoals de vraag wanneer, gelet op de betrouwbaarheid van het instrument, gesproken kan worden van een daadwerkelijk verschil tussen twee scores. De psychometrie stelt immers op het punt van normen, betrouwbaarheid en validiteit andere eisen aan tests die voor herhaalde metingen worden gebruikt dat aan instrumenten die voor een eenmalige meting bedoeld zijn. De psycholoog zal zich hiervan bewust moeten zijn, mede omdat de beoordelingen van de COTAN vaak betrekking hebben op de eenmalige afname van de test en de psychometrische eisen voor een test (potentieel) anders zijn voor data verkregen middels een herhaalde afname in vergelijking tot een eenmalige afname.