Psykometriske grundbegreber
Psykometriske grundbegreber med nogle eksempler fra Sensory Profile, Bayley Scales of Infant and Toddler Development, Movement Assessment Battery for Children og Clinical Evaluation of Language Fundamentals
Nedenfor præsenterer vi kort nogle grundlæggende psykometriske begreber, der forekommer i Sensory Profile, Bayley Scales of Infant and Toddler Development (Bayley), Movement Assessment Battery for Children (Movement ABC) og Clinical Evaluation of Language Fundamentals (CELF) – instrumenter, som bl.a. henvender sig til fysioterapeuter og logopæder.
Råscorer
En opnået total råscore, dvs. en summering af scorerne i alle opgaverne i testen (eller vurderingsskalaen), kan generelt ikke tolkes. For at resultatet skal være muligt at tolke, skal råscorerne omregnes til standardscorer. En sådan omregning foretages ved hjælp af en statistisk procedure, som kaldes skalatransformation, hvor fordelingen af råscorer overføres til en standardskala. Testmanualerne indeholder tabeller til enkel omregning af råscorer til standardscorer i de situationer, hvor der administreres en papir- og blyantversion af testen. Hvis testen er blevet administreret eller scores digitalt, sørger programmet for omregningen. Der er dog instrumenter – som fx Sensory Profile – hvor tolkningen sker på råscoreniveau, og man benytter såkaldte “cut off-grænser”, se nedenfor for en beskrivelse.
Standardscorer og standardskalaer
Der findes forskellige typer standardscorer (nogle gange kaldet normscorer). Nogle af de mest almindelige er indeksscorer, T-scorer, skalascorer, staninescorer og stenscorer. Først når råscoren er omregnet til standardscorer, begynder det at blive muligt at få en opfattelse af, hvad scoren egentlig betyder, og hvordan det enkelte resultat skal tolkes.
Ofte kan flere standardscorer (fx skalascorer, som ofte bruges på delprøveniveau) i en test summeres for derefter at omregnes til en anden og mere sammenfattende standardscore. I fx Bayley summeres skalascoren i hver delskala til en mere overordnet indeksscore for de tre skalaer Kognition, Sprog og Motorik. Derefter bruges indeksscoren til normsammenligninger. I CELF og Movement ABC foretages der tilsvarende summeringer for at give brugeren et sammenfattende, overordnet billede af, hvordan barnets sprog og motorik har udviklet sig.
Standardscorer er lette at sammenligne indbyrdes, da de alle er scorer på standardskalaer. Standardskalaer tager udgangspunkt i normalfordelingen, og alle standardskalaer beskriver graden af “afvigelse” i det individuelle resultat udtrykt i afstanden fra middelscoren.
Normalfordeling
Mange menneskelige egenskaber er normalfordelte. Hvis man måler en bestemt egenskab hos et stort antal mennesker, havner de fleste et sted i midten, omkring middelscoren. Færre personer har ekstremt meget, eller ekstremt lidt, af en bestemt egenskab. De forskellige standardskalaer bygger alle sammen på normalfordelingen. I billedet nedenfor fremgår det tydeligt, at de fleste af alle observationer – dvs. at de fleste af alle målinger, lidt over 68 %, af en bestemt egenskab havner omkring middelscoren. Nogle lidt under, nogle lidt over. Jo længere ud i normalfordelingens “haler”, man kommer, desto færre observationer er der.
Normer og normgrupper
For at kunne tolke en enkelt persons resultat i en test, er man nødt til at sætte resultatet i forhold til noget. Hvor højt eller lavt et resultat er, kan man kun afgøre i forhold til, hvordan andre har præsteret. Derfor har næsten alle test normer, dvs. at man har indhentet data fra et stort antal mennesker – børn eller voksne afhængigt af de enkelte test. Når man sammenligner det enkelte resultat med normerne, får man et billede af, hvordan det forholder sig til det, som andre personer har præsteret. I en del test er der forskellige normgrupper, så man kan vælge den sammenligningsgruppe, der indeholder personer i samme alder, som den person man vil sammenligne. Hvor mange normgrupper der findes, og hvordan de er inddelt, varierer fra test til test. I fx Bayley er der utroligt mange forskellige normgrupper baseret på alder, eftersom udviklingen af de forskellige evner, som testen måler, går hurtigt hos små børn, mens en skala, der er beregnet til voksne, kan have betydeligt færre normgrupper.
Standardafvigelser og konfidensintervaller
Scorer i en test er altid en vurdering af en persons ”sande” score. De opnåede scorer afspejler resultatet i kombination med en målefejl (standardfejl). Sande scorer repræsenteres mere passende ved, at man etablerer et konfidensinterval omkring testresultatet. Et konfidensinterval er et scoreinterval, inden for hvilket de sande scorer med størst sandsynlighed ligger. Konfidensintervaller er en måde, hvorpå man kan udtrykke præcisionsgraden i de opnåede scorer, og de fungerer som en påmindelse om, at alle testresultater og vurderingsskalaer er behæftede med målefejl. I testmanualernes normtabeller er der generelt oplysninger om, hvilket scoreinterval der udgør konfidensintervallet. Det er det interval, frem for en nøjagtig score, der skal bruges, når testresultater rapporteres. Hvis man bruger Q-global eller Q-interactive får man konfidensintervallerne præsenteret i de resultatrapporter, der genereres fra systemerne.
Percentiler
I både Bayley, Movement ABC og CELF præsenteres der, ud over standardscorer, også percentiler. Percentiler repræsenterer procentandele af den normgruppe, der opnåede et højere eller lavere resultat end en bestemt råscore. Percentilscorerne kan ligge mellem 1 og 99 og kan siges at beskrive, hvor almindeligt eller usædvanligt forekommende et bestemt resultat er i normgruppen. Et enkelt testresultat, som fx ligger på den 65. percentil, betyder, at resultatet er lige så højt som, eller højere end, de resultater, som 65 % af personerne i normgruppen fik. Eller omvendt, lavere end 35 % af sammenligningsgruppen. Det kan være let at forstå, men man er nødt til at være forsigtig, når man tolker percentiler. Percentilerne i en normalfordeling har en tendens til at samles i midten af fordelingen. For personer, der præsterer omkring gennemsnittet, indebærer det, at en forandring på en eller to råscorer kan medføre en stor forandring udtrykt i percentilscorer. For personer, der enten præsterer højt eller lavt, medfører en tilsvarende forandring i råscorer derimod ingen markante effekter på percentilscoren.
Diskrepansanalyser
Både Bayley og CELF indeholder mange delprøver. For at afgøre, hvor stor forskel der er på resultaterne i delprøverne, og om den forskel er vigtig, kan man foretage såkaldte diskrepansanalyser. I CELF kan diskrepansanalyser give vigtig information om eventuelle ujævnheder i et barns sprogudvikling, og i Bayley kan brugere vurdere, om fx udviklingen af kognitive evner og motoriske færdigheder følges ad eller ej. Hvordan diskrepansanalyser foretages beskrives i testmanualerne i de tilfælde, hvor testen administreres i papir- og blyantversion, eller også gennemføres den automatisk i Q-interactive og Q-global ved digital administrering.
Aldersækvivalenter
Mange test, inklusive Bayley, præsenterer aldersækvivalenter. En aldersækvivalent repræsenterer den gennemsnitlige alder, utrykt i måneder, for hvilken en given total råscore er typisk. Aldersækvivalenter kan være lette at forstå og forklare, men de skal bruges med meget stor forsigtighed. De giver ingen information om, hvordan resultatet forholder sig til jævnaldrendes resultater, og de er følsomme over for små forandringer i råscorer.
Cut off-scorer
I Sensory Profile tolkes råscoren i forhold til opstillede såkaldte ”cut off-grænser”, dvs. scoregrænser, som markerer forskellige grader af overensstemmelse med normgruppen. Er de opnåede råscorer de samme som fleste andres, eller afviger de? Og hvis de gør, hvor meget eller hvor lidt afviger de så? Cut off-scorer baseres ofte på et eksternt kriterie og markerer overgangen fra én kvalitativ kategori til en anden. I Sensory Profile fungerer standardafvigelsen som dette kriterie. Standardafvigelsen (SD) er den gennemsnitlige afvigelse fra middelscoren i en række observationsscorer. Scorer, der ligger inden for cut off-intervallet -1 til +1 SD, repræsenterer i den teoretiske normalfordeling ca. 68 % af populationen. På tilsvarende måde indebærer et resultat, hvor en person er havnet over en cut off-grænse på 2 SD, at vedkommende tilhører en minoritet i normalfordelingen, nærmere bestemt får ca. 2 % en sådan høj score. I Sensory Profile klassificeres en sådan person med betegnelsen “Meget mere end de fleste andre” for det aktuelle mål.
Reliabilitet
Reliabiliteten i test viser, med hvilken præcision eller pålidelighed testens eller vurderingsskalaens udsagn/spørgsmål/opgaver fanger det, der skal måles. Reliabilitetsscoren angives som en korrelationskoefficient, der kan variere mellem 0 og 1. Der findes forskellige metoder til beregning af reliabilitet. Den mest almindelige er den, der måler sammenhængen mellem en skalas forskellige opgaver, og som altså giver et mål på skalaens interne konsistens. Reliabiliteten bør ligge på .70 eller derover, for at målingen skal anses for at være tilstrækkelig præcis. Men i de tilfælde, hvor reliabiliteten er meget høj, risikerer man at gå glip af bredden i den målte egenskab eller evne – måleområdet bliver for snævert. Andre almindelige reliabilitetsmål er testning af en og samme person over tid, såkaldt test-retest, eller at spørgsmålenes konsistens testes mellem forskellige testledere, såkaldt reliabilitet for ensartet scoring mellem forskellige testledere.
Validitet
En tests validitet er dens vigtigste egenskab. At en test har validitet betyder, at den måler det, den skal måle og ikke noget andet. I modsætning til reliabilitet er det svært at sætte et tal på validiteten. Der findes forskellige validitetstyper. Ofte finder man i testens dokumentation oplysninger om, hvordan forskellige særlige grupper – grupper med personer, som man allerede har konstateret har forskellige former for udfordringer (fx med deres sproglige eller motoriske udvikling) – har præsteret i testen. Når man udvikler en test, indhenter man data fra denne slags grupper for at se, om testen kan skelne mellem dem og personer uden tilsvarende udfordringer. Andre former for validitet har at gøre med, om de spørgsmål, der indgår i testen, er relevante for den egenskab, der skal måles, samt om testen måler et nogenlunde ensartet begreb eller delaspekter af et begreb. En statistisk metode kaldet faktoranalyse bruges generelt til at undersøge strukturen i testen. Formålet med en faktoranalyse er at undersøge eventuelle bagvedliggende (såkaldte latente) faktorer på grundlag af en analyse af sammenhængen mellem observerede (såkaldte manifeste) variabler.
Normering, normvalidering og oversættelse
Processen med at indsamle sammenligningsdata til et instrument kaldes normering. Normering er et omsorgsfuldt og krævende arbejde – der skal indsamles store mængder data, som er repræsentative for den population, i hvilken testen skal anvendes. Der skal tages hensyn til en række demografiske variabler (som fx alder, køn og uddannelsesniveau), for at instrumentets normer skal udgøre en passende afspejling af populationen og kunne bruges til sammenligning. I nogle tilfælde og for nogle instrumenter kan man i stedet foretage en såkaldt normvalidering, hvilket indebærer, at en mindre mængde data indsamles for at undersøge relevansen af det oprindelige normudvalg (som ofte er amerikansk eller britisk). Og i nogle tilfælde kan en test udgives som en kulturelt tilpasset oversættelse af originalversionen. Det er primært noget, man gør, når det, der skal måles, kan formodes at være mindre følsomt over for sproglig og kulturel indflydelse, fx motorisk udvikling.
Niklas Hansen, dr.phil., projektleder, R&D, Pearson Clinical
Katarina Forssén, aut. psykolog, projektleder, R&D, Pearson Clinical
Tilmeld dig vores nyhedsbrev
Vil du have aktuel information om vores test og kurser? Tilmeld dig vores nyhedsbrev.