Adaptief testen versus klassiek testen: wat is beter? ‘Wij gebruiken adaptieve testen’, zie je op websites van testuitgevers en assessmentbureaus. Dat leest alsof dat beter is dan de ‘klassieke’, lineaire testvormen, maar dat hoeft niet zo te zijn. In deze blog vertel ik je meer over wat adaptief testen precies is en wanneer en voor wie deze vorm van testafname voordelen heeft. En ik bespreek waar je de kwaliteit van een psychologische test aan af kunt lezen. Het is namelijk prettig als je weet wat je kunt verwachten als je voor je werk psychologische testen maakt of deelneemt aan een assessment. Zo zorg je dat het maken van een test voor jou zinvol is.
Het ontwikkelen van een test
Testen zoals persoonlijkheidsvragenlijsten en intelligentietesten moeten worden ontwikkeld alvorens je ze kunt gebruiken. Een nieuwe test maak je doorgaans door verschillende vragen te bedenken die samen kenmerken van mensen meten of kunnen voorspellen. Dit is heel tijdrovend en precies werk en wordt uitgevoerd door een gespecialiseerd soort psychologen. Want uitspraken die we doen aan de hand van testen, moeten wel gegrond zijn. Dit is dus niet te vergelijken met een Libelle-test. Daarom gebruiken deze testontwikkelaars bepaalde methoden en theorieën. Bij een adaptieve test is het uitgangspunt een andere theorie dan bij een klassieke test. Een adaptieve test is gebaseerd op de item-respons-theorie en een klassieke, lineaire test op de klassieke testtheorie.
Validiteit en betrouwbaarheid
Of een test goed genoeg is om zinvolle uitspraken op te baseren in relatie tot de werkelijkheid, wordt uitgedrukt aan de hand van de termen validiteit en betrouwbaarheid. Validiteit heeft betrekking op meten wat je beoogt te meten. Bij het onderzoeken van de validiteit kijk je naar de mate waarin de resultaten van een test en het te meten kenmerk met elkaar overeenkomen. De validiteit is een gradatie, het is niet zo dat de ene test valide is en de andere niet. Wel is de ene test meer valide dan een andere. Een voorbeeld van een lage validiteit is bijvoorbeeld intelligentie proberen te voorspellen door de lengte van de betreffende persoon te meten. De lengte kun je zorgvuldig meten, maar heeft geen of te weinig relatie met intelligentie om op grond van die meting te voorspellen hoe intelligent iemand is.
En betrouwbaarheid heeft betrekking op het minimaliseren van toevallige uitkomsten. Als je op dinsdag iemands persoonlijkheid met een vragenlijst in kaart brengt, dan wil je de dag daarop, op woensdag, met dezelfde test een vergelijkbare testuitslag genereren. Zit er veel verschil tussen de testuitslagen en de persoon in kwestie heeft niets bijzonders meegemaakt, dan meet je blijkbaar op de ene dag iets anders dan op de andere en is er sprake van ruis of willekeur. In algemene zin bestaan er geen verschillen tussen de betrouwbaarheid en validiteit van adaptieve testen ten opzichte van klassieke testen. Testen onderling kunnen uiteraard wel verschillen in de mate van validiteit en betrouwbaarheid, zowel bij testen van dezelfde soort, als bij testen van de twee verschillende soorten. Bij de afname zijn er wèl duidelijke verschillen tussen adaptieve en klassieke testen.
Verschillen in afname
Bij een klassieke, lineaire test krijgt elke deelnemer dezelfde vragenlijst, wat betreft het aantal en de inhoud van de vragen. Ook de volgorde staat doorgaans vast. Bij een adaptieve test varieert de samenstelling van de vragen, wat betreft inhoud, het aantal vragen en dus ook de afnameduur. Kort samengevat krijgt elke deelnemer bij dit type test een startvraag en het antwoord op deze startvraag bepaalt welke vraag daarop volgt, vandaar ook de naam ‘adaptief’. De techniek hierachter is complexer dan bij een klassieke test. Er is een grote voorraad vragen nodig, waarbij van elke vraag bepaald is hoe moeilijk hij is.. Ook hier spelen validiteit en betrouwbaarheid een rol bij de kwaliteit van de test en de meting. De testlengte is direct gekoppeld aan de betrouwbaarheid, als er een bepaalde betrouwbaarheidsgrens bereikt is, is de test afgerond. Als je een vraag met een bepaalde moeilijkheidsgraad goed beantwoordt, krijg je daaropvolgende moeilijkere opgaven, totdat je die niet meer goed maakt. Een algoritme (rekenregel) dat onderdeel uitmaakt van de techniek van de test, bepaalt wanneer het antwoordpatroon voldoende consistent is om als betrouwbaar te gelden. Dan stopt de test.
Voordelen adaptieve test
Voor testontwikkelaars is het maken van een adaptieve test complexer en tijdrovender dan een klassieke test. Vaak zijn adaptieve testen, mede hierdoor, duurder. Voor testgebruikers, zoals psychologen, is er weinig verschil in het interpreteren van beide soorten testen, zolang de kwaliteit van de test van voldoende niveau is. Voor testen op afstand kan, zeker bij capaciteitentesten, het wenselijk zijn om een adaptieve test in te zetten, zodat de antwoorden van de vragen niet te gemakkelijk verspreid kunnen worden, waardoor afnames betrouwbaar en valide blijven. Vanwege het adaptieve karakter kun je in theorie met minder vragen toe om een betrouwbare meting te krijgen. Het is niet voor alle personen noodzakelijk dat ze alle, zeg maar 30, vragen maken. Bij de klassieke testen kunnen mensen met een lager niveau minder gemotiveerd raken of afgeschrikt worden door (veel) te moeilijke vragen, terwijl mensen met een hoger niveau verveeld of onoplettend kunnen worden door te makkelijke vragen.
Nadelen adaptieve test
Voor deelnemers die testen maken kan het voordeel van een adaptieve test zijn dat de testafname korter duurt dan bij een klassieke test. Maar of dat het geval is, hangt ook af van de betreffende deelnemer. Een adaptieve test laat zich hierdoor minder hard begrenzen in afnameduur dan een klassieke test. Al zal deze variatie in afnameduur waarschijnlijk vaak nog steeds een kortere testafname tot gevolg hebben dan bij een klassieke test. Doordat deelnemers tegen hun eigen niveau getest worden, kan er demotivatie ontstaan omdat er tussendoor geen gemakkelijker vragen voorbij komen en er geen vragen overgeslagen kunnen worden.
Dus….
Kortom: adaptief testen kan voordelen hebben, maar of dat het geval is, zal per situatie verschillen. En het ene type test is niet per se beter dan het andere type test. Om de kwaliteit van een test te bepalen is het belangrijk naar de validiteit en betrouwbaarheid te kijken. En het is belangrijk dat testen door daarvoor opgeleide professionals gehanteerd en geïnterpreteerd worden, bijvoorbeeld psychologen. Geregeld wordt er verwezen naar COTAN-testen als het gaat over de kwaliteit van testen, bijvoorbeeld bij eisen voor een aanbesteding. COTAN staat voor Commissie Testaangelegenheden Nederland en is een onderdeel van het NIP, het Nederlands Instituut van Psychologen. Dat is de beroepsvereniging van psychologen in Nederland. Dát een test aangeboden is bij COTAN en een beoordeling heeft gekregen, wil nog niet zeggen dat een test kwalitatief ook voldoende of goed is. Zelfs voor ervaren psychologen is het raadplegen van de COTAN een puzzel, omdat testen vaak op de verschillende beoordeelde onderdelen wisselend scoren. Een rondgang langs een aantal grote en gerenommeerde testuitgevers leert overigens dat vandaag de dag ervoor gekozen wordt om testen níet meer bij de COTAN aan te bieden, omdat deze beoordeling een tijdrovende en kostbare aangelegenheid is.
De conclusie is dat testgebruik, in wat voor vorm dan ook, vraagt om kennis van zaken en oog voor kwaliteitscriteria. Verantwoord testgebruik vraagt om een ervaren professional. Zet je zelf testen in bij medewerkers van een organisatie? Wees je hier dan bewust van en zorg dat je voldoende kennis en ervaring hebt. Neem de testen die je inzet eens onder de loep. Maak je zelf testen voor je persoonlijke ontwikkeling, via of voor je werkgever of tijdens een assessment? Wees je dan bewust van het belang van een kwalitatief goede test. Je wil tenslotte niet dat er op basis van vijf vragen een positief of negatief advies voor een baan gegeven wordt. Dan wordt het toch een Libelle-test of horoscoop. En een test wordt voor jou ook interessanter als je weet dat de vragenlijst goed in elkaar zit. Dat stelt je in staat om gegrond keuzes te maken voor jouw professionele ontwikkeling. En uiteraard helpt het je te allen tijde om jouw resultaten met een psycholoog te bespreken, zodat je goed de vertaalslag kunt maken van wat de uitslag van een test voor jou betekent. Persoonlijke ontwikkeling is en blijft mensenwerk. Automatisering helpt, het kan het afnemen van testen leuker en gemakkelijker maken, maar persoonlijke ontwikkeling kun je niet automatiseren.
Verschoor & Oudshoorn, maart 2020 - Giselinde Oomen
Reageren? Laat hieronder je gegevens achter. Dan nemen wij contact met je op.