1.3. Kysymys reliabiliteetista nousee esiinTesti-psykologiassa kysymys *reliabiliteetista on liki yhtä vanha kuin testaus-psykologia, siis yli sata vuotta (mm. englantilainen statistikko Edward Charles Spearman, 1863 – 1945). Psykiatriaan reliabilteetti tuli vasta DSM:n kehittelyn myötä 1970-luvulla, kun esitettiin skaala- eli asteikkomuotoiset psyykkisten häiriöiden
St. Louis- tai
Feighner-kriteerit (1972
et al.) koulukunnan yhden johtohahmon mukaan (yhdysvaltalainen psykiatri John Preston Feighner 1937 – 2006, Washington University School of Medicine in St. Louis). Vuonna 1978 – tulevan DSM-III:n ennakkona –
Columbia Universityn (NY) psykiatri Robert Leopold Spitzer (1932–) ja nais-psykologi Jean Endicott (1936–) sekä
St. Louisin psykiatri Eli Robins (1921 – 1994) esittivät (Spitzer
et al. 1978) diagnostiset tutkimus-kriteerit
(Research Diagnostic Criteria, RDC), jotka saivat laajennettuina ilmauksensa vallankumouksellisessa DSM-III:sa (1980). ICD-10:een (1992)
Diagnostic Criteria for Research (ICD-10: DCR) tuli vasta vuonna 1993
(Green book).DSM:ssä fokus on ollut testaus – uusintatestaus -reliabiliteetissa
(test – re
test), siis mittarin stabiliteettissa eli siinä, kuinka samanlainen tulos on uusinnassa toisen arvioitsijan tekemänä. Kyseessä on siis (myös) arvioitsijoiden välinen reliabiliteetti
(inter - rater), jonka mittauksen yksinkertaisin muoto on yksimielisyys-prosentti. Tällainen prosentti ei kuitenkaan ota huomioon sattuman tai arvauksen osuutta: esimerkiksi kolikonheiton ”arvioinnissa” (kuunu – klaava) yksimielisyys-prosentiksi tulee ajan mittaan 50. DSM:ssä arvioitsija-reliabiliteetin mittariksi on vakiintunut *Cohen’in kappa-kerron
(κ), joka pyrkii eliminoimaan sattuman ja pyrkii tuomaan esiin arvioitsijoiden todellisen yksimielisyyden.
Kaavana:
Symbolein:
DSM:n asteikot koostuvat nominaali- eli laatuero-asteikollisista (dikotomisista) väittämistä (on/ei), ja myös koko skaala on nominaalinen (häiriö todetaan/häiriötä ei todeta). (Tällöin käytettään painottamatonta kappaa. Jos kyseessä olisivat ordinaali- eli järjestys-asteikolliset skaalat, tulisi käyttää painotettua
(weighted) kappaa.)
Saadun κ -kertoimen sanoma ei kuitenkaan ole itsestään selvä. Sim & Wright (2005) tuovat esiin kolme tekijää, jotka vaikuttavat kappan oikeaan tai todelliseen arvoon:
1 *prevalenssi-efekti,
2 *bias-efekti ja
3 arvioiden ei-riippumattomuus.
P r e v a l e n s s i-efektiTaulukko 1.
A. Assessment of the presence of lateral shift, from Kilpikoski
et al. (κ = 0,18).
B. The same data adjusted to give equal agreements in cells a & d, and thus a low prevalence index (κ = 0,54).
Sim & Wright 2005: 261.
http://ptjournal.apta.org/content/85/3/ ... l.pdf+htmlArvioitavan attribuutin (häiriön merkkien tai häiriön tms.) prevalenssi on vaikutta-massa kappa-kertoimen arvoon. Jos arvioitsijoiden positiivisten tai negatiivisten arvioiden määrä on joko pieni tai suuri (yllä olevassa 1A-kontingenssi-taulukossa ruudut a & d; 28–2), myös sattumanvaraisten arvioiden määrä, prevalenssi-indeksi, on suuri, esimerkissä 0,67, joka antaa sattumanvaraisen yksimielisyyden osuudeksi 0,72, jolloin κ laskee 0,18:aan – Taulukossa 1B prevalenssi-indeksi on nolla (15 – 15), mikä alentaa sattumanvaraisen yksimielisyyden arvoon 0,50, jolloin kappa nousee 0,54:ään. Korkea prevalenssi-indeksi alentaa kappa-kertoimen arvoa.
B i a s-efektiTaulukko 2.
A. Contingency table showing nearly symmetrical disagreements in cells b and c, and thus a low bias index (κ = 0.12).
B. Contingency table with asymmetrical disagreements in cells b and c and thus a higher bias index (κ = 0.20).
Sim & Wright 2005: 262. (Hypothetical data for diagnoses of spondylolisthesis (present or absent) by two clinicians.)
http://ptjournal.apta.org/content/85/3/ ... l.pdf+htmlBias on arvioitsijoiden tekemien positiivisten (tai negatiivisten) erimielisyyksien määrä, jota ilmentää ero b & c -ruuduissa (2
A:ssa symmetrisest 23 – 21; 2
B:ssä epäsymmetrisesti 38 – 6). (Paradoksaalisesti) korkea bias-indeksi nostaa kappa-kertoimen arvoa.
Kirjoittajat (pp. 263 – 264; taulukko 6) tuovat esiin myös PABAKin
(prevalence-adjusted-bias-adjusted kappa), joka kuitenkin luo ”hypoteettisen” tilanteen ilman prevalenssia ja biasia. PABAKin rinnalla tulisikin esittää alkuperäinen kappa. Referenssiksi voitaisiin laskea myös κmax (pp. 264 – 265).
Sim & Wright (pp. 266 – 269) suosittavat mm. että alkuperäisen kappan rinnalla tulisi tuoda esiin prevalenssi ja bias. He kehottavat varovuuteen, kun verrataan kappaa muuttujia, joilla on eri suuri prevalenssi ja bias, tai jos mittaukset on tehty eri muuttujilla.
Spitzer & Fleiss (
1974: 341–347; 344) ovat koonneet yhteen kuuden psykiat-risen tutkimuksen kappa-kertoimia. (Nimimerkki
1 Boring Old Man 2012 a.)
1 Schmidt & Fonda (1956), N 426 (Connecticut).
2 Kreitman (1961), N 90 (England).
3 Beck
et al. (1962), N 153 (Philadelphia).
4 Sandifer
et al. (1964) N 91 (North Carolina).
5 US – UK
Diagnostic Project, Cooper
et al. (1972).
6 Spitzer
et al. (1975?), N 100 (Washington Heights).
Spitzer et al. (
1978: 773 – 782; 779) tutkivat RDC-diagnoosien kappa-kertoimia kolmessa tutkimuksessa. (Nimimerkki
1 Boring Old Man 2012 a.)
A & B ”Joint”: Haastatteluissa läsnä kaksi arvioitsijaa, joista toinen teki haastattelun; riippumattomat arviot.
A RDC:n
early draft (New York).
B RDC:n
first edition (New York, Iowa, St. Louis & Massachusetts).
C Aito
test – re
test, RDC:n
second edition (New York, Iowa, St. Louis & Massachusetts).
29.11.2013 9:13