Odcinek 2 – Jak wystandaryzować różnicę, czyli d, g, delta i ogólny nieład w nazewnictwie

Wyobraźmy sobie, że chcemy sprawdzić, czy dwie grupy zawodowe (np. policjanci i strażacy) różnią się poziomem stresu związanego z pracą. W tym celu konstruujemy narzędzie (autorski kwestionariusz do pomiaru odczuwanego stresu), za pomocą którego badamy losowo wybranych stu policjantów i stu strażaków. Oczywiście, nie interesuje nas wyłącznie, jak różnią się między sobą te dwie stuosobowe grupy – mamy nadzieję, że na podstawie ich wyników będziemy mogli wypowiadać się na temat całych społeczności zawodowych (tj. populacji). Uzyskane wyniki pokazują, że w grupie strażaków średni wynik w naszym kwestionariuszu wynosi 78 punktów, podczas gdy w grupie policjantów średnia wartość to 90. Różnica ta jest istotna statystycznie, przyjmujemy więc, że prawdopodobnie nie jest ona przypadkowa i obie grupy zawodowe faktycznie charakteryzują się nieco innym poziomem odczuwanego stresu. Być może jesteśmy szczęśliwi, że potwierdziliśmy naszą hipotezę, ktoś jednak zadaje nam pytanie – czy te 12 punktów różnicy między średnimi to dużo, czy mało? Czy rozmawiając z losowo wybranym policjantem i losowo wybranym strażakiem naprawdę mamy szansę dostrzec między nimi różnicę, czy też odczuwany przez nich poziom stresu wyda nam się praktycznie taki sam?

Rozważmy teraz dwie sytuacje. W pierwszej, odchylenia standardowe w obu grupach są podobne i wynoszą około czterech punktów. Oznacza to między innymi, że prawie sto procent rozkładu wyników (+/- 3 odchylenia standardowe) w grupie strażaków (czyli od 66 do 90 punktów, ze średnią 78) leży poniżej średniego wyniku w grupie policjantów (tj. 90). Ogólnie, rozkłady obu tych grup pokrywają się w zaledwie 13 procentach. W drugiej sytuacji jednak przyjmijmy, że odchylenia standardowe obu grup, ponownie równe, wynoszą cztery razy więcej, tj. 16 punktów. W tym przypadku ponad 70% rozkładu wyników jest wspólne dla obu grup.  Wybierając losowo po jednej osobie z każdej grupy, mniej więcej co trzeci raz okaże się, że strażak uzyskał wyższy wynik od policjanta (czyli odwrotnie niż wskazywałyby różnice w średnich grupowych). Oczywiście, w obu opisanych przypadkach wyniki są istotne statystycznie (p<0,001). Widać jednak wyraźnie, że „waga” tej samej różnicy, wynoszącej średnio 12 punktów, jest zupełnie inna.

Pamiętajmy równocześnie, że skala, którą stosowaliśmy, jest dość arbitralna (jak to często bywa z wskaźnikami psychologicznymi). Trudno powiedzieć, jak dużemu „wzrostowi” natężenia stresu odpowiada jeden punkt kwestionariusza, a twierdzenie, że zero punktów oznacza całkowity brak odczuwanego stresu byłoby pewnie co najmniej dyskusyjne. Trudno też porównać nasz wynik z wynikami uzyskanymi za pomocą innego narzędzia – czy nasze 12 punktów to podobna, większa, czy może mniejsza różnica niż różnica np. 25 punktów uzyskanych za pomocą innego kwestionariusza? Także z tego względu – by precyzyjnie i miarodajnie ocenić uzyskiwane wyniki – potrzebna jest jakaś metoda, by uzyskaną różnicę przedstawić w sposób wystandaryzowany, który pozwoli pokazać, jak duże jest faktyczne zróżnicowanie między porównywanymi grupami, i porównać ten efekt z wynikami innych badań z interesującego nas obszaru.

Taka wystandaryzowana różnica najczęściej obliczana jest poprzez podzielenie różnicy średnich przez tzw. nieobciążone oszacowanie łącznego odchylenia standardowego dla obu grup (unbiased pooled standard deviation). Miara taka określana jest współczynnikiem d Cohena albo g Hedgesa (pierwsze określenie jest zdecydowanie popularniejsze). Współczynnik ten przyjmuje wartość zero dla całkowitego braku różnic i, oddalając się od zera, pokazuje wielkość różnicy w kategoriach odchylenia standardowego. Znak (dodatni lub ujemy) wskazuje po prostu na kierunek różnicy (tj. która z grup ma wyższy, a która niższy wynik). Jacob Cohen (np. 1992) zasugerował, by wartości powyżej 0,2 traktować jako słabe, powyżej 0,5 jako średnie, a powyżej 0,8 jako silne efekty. Ma to jednak przełożenie głównie na moc statystyczną testów i „łatwość” wykrycia efektów o zróżnicowanym natężeniu. Zawsze trzeba pamiętać, że ocena praktycznego znaczenia różnic międzygrupowych jest bardzo relatywna i każdorazowo powinna być uzależniona od przedmiotu badania (np. o 10% większa skuteczność drogiego leku w stosunku do placebo może być uznana za niezadowalającą, podczas gdy kampania społeczna obniżająca o 10% liczbę wypadków drogowych może być uznana za spory sukces).

Opisany wyżej sposób wyliczania wielkości efektu, oparty na szacowaniu łącznego odchylenia standardowego, ma sens jedynie wtedy, gdy obie grupy mają porównywalne wariancje. Co jednak robić, gdy wariancje obu grup znacząco się różnią? Czy mówienie o wielkości różnicy w kategoriach wspólnego odchylenia standardowego (skoro w każdej grupie jest ono inne) ma w ogóle sens? Literatura przedmiotu nie jest tu spójna, najczęstszą i najbezpieczniejszą propozycją jest jednak wyliczanie siły efektu poprzez podzielenie różnicy przez odchylenie standardowe tylko jednej grupy. Wskaźnik taki określa się zazwyczaj mianem Δ Glassa (delta Glassa). Zakładamy w nim, że ta jedna grupa ma charakter grupy kontrolnej, „neutralnej”, a druga (wywodząca się pierwotnie z tej samej populacji co grupa kontrolna) została poddana wpływowi dodatkowych oddziaływań, co mogło wpłynąć zarówno na średni wynik, jak i na wariancję.

Trzeba też pamiętać, że podobnie jak średnią w badanej próbie pozwala jedynie szacować  średni wynik dla całej populacji, tak samo wartość d (czy g) lub Δ obliczona na parametrach próby stanowi dla nas jedynie oszacowanie populacyjnej siły efektu. Jest to jednak oszacowanie pozytywnie obciążone –  zawyża trochę prawdziwą, populacyjną wartość. Może ono jednak zostać skorygowane poprzez przemnożenie przez opracowany przez Larry’ego Hedgesa czynnik oparty na funkcji gamma. Taki skorygowany wskaźnik wielkości efektu opisywany jest w literaturze jako… g Hedgesa, jako g* Hedgesa lub jako d  (sic!).

Widać już wyraźnie, że w nazewnictwie standaryzowanych wielkości różnic panuje spory chaos, a literki d i g stosowane są zamiennie przez różnych autorów. Streszczając dość mocno tę skomplikowaną historię – za twórcę standaryzowanej wielkości różnicy uznaje się Jacoba Cohena (1962), który posłużył się tą miarą w analizie mocy testów w badaniach z początku lat sześćdziesiątych XX wieku (wykazując równocześnie, że wielu badaczy źle planowało swoje analizy, nie uwzględniając roli liczebności próby w wykrywaniu efektów statystycznych). Cohen jednak pisał o efekcie populacyjnym (nie dając propozycji, jak w sposób nieobciążony szacować go z próby), choć – wbrew tradycji, by miarę taką określać literą z alfabetu greckiego – do jego opisu przyjął łacińską literkę d. Nieco później Smith i Glass (1977)  prezentując metaanalizę badań dotyczących psychoterapii posłużyli się miarą siły efektu szacowaną z próby, znaną dziś jako Δ (swoją drogą, Gene V. Glass uznawany jest za twórcę określenia „metaanaliza”). Na początku lat osiemdziesiątych zaś Larry Hedges (1981) pokazał, jak obliczyć miarę proponowaną przez Cohena na podstawie danych z nierównolicznych grup, i określił ją literką g (właśnie na cześć wspomnianego wyżej Glassa!). Hedges równocześnie zaprezentował sposób korekty tej obciążonej wartości, którą sam określił jako gU (a później d), jednak wielu późniejszych autorów zaczęło tę skorygowaną miarę opisywać właśnie jako g Hedgesa. Tymczasem Cohen w swych publikacjach z lat osiemdziesiątych i późniejszych konsekwentnie posługiwał się literką d zarówno dla określenia miary populacyjnej, jak i szacowanej na podstawie danych z próby (bardziej szczegółowo o tym zamieszaniu można przeczytać w: Enzmann, 2015). Aktualnie najlepszą sugestią przy szacowaniu siły efektu jest posługiwanie się określeniem „d Cohena” dla miary klasycznej (obciążonej) i – zaznaczając, że jest to wartość skorygowana – „g Hedgesa” dla wartości po korekcie.  Posługując się zaś Δ Glassa powinniśmy pozostać właśnie przy takiej nazwie, z ewentualnym zaznaczeniem, czy została ona skorygowana zgodnie z propozycją Hedgesa.

Popularne programy statystyczne (SPSS czy Statistica) nie wyliczają automatycznie wartości d Cohena (czy pokrewnych), ale jest to dość łatwe do zrobienia ręcznie. Odpowiednie wzory można znaleźć choćby w Wikipedii pod hasłem „Wielkość efektu”.  Gotowe procedury są natomiast dostępne np. w różnych pakietach środowiska statystycznego R, a także w postaci licznych „kalkulatorów” internetowych, z których godnymi polecenia są np.:  http://www.psychometrica.de/effect_size.html lub http://www.polyu.edu.hk/mm/effectsizefaqs/calculator/calculator.html (pierwszy podaje wartość d liczoną oddzielnie dla grup równolicznych i o różnych liczebnościach, drugi podaje wartość d wyłącznie przy założeniu grup równolicznych; z kolei jako wartość g pierwszy z kalkulatorów podaje wartość nieskorygowaną, tożsamą z d, drugi zaś wartość skorygowaną).

Mając wyjaśnioną kwestię tego, czym jest standaryzowana wielkość różnicy, w kolejnym biuletynie przyjrzymy się, jakie dodatkowe informacje można na podstawie tej miary wygenerować, by lepiej scharakteryzować analizowane przez nas wyniki.

 

dr Piotr Zieliński

Wojskowy Instytut Medycyny Lotniczej

 

Pozycje cytowane:

Cohen, J. (1962). The statistical power of abnormal-social psychological research: A review. Journal of Abnormal and Social Psychology, 65(3), 145–153.

Cohen, J. (1992). A power primer. Psychological Bulletin, 112(1), 155–159.

Enzmann, D. (2015). Notes on Effect Size Measures for the Difference of Means From Two Independent Groups: The Case of Cohen’s d and Hedges’ g (Technical Report). Hamburg: University of Hamburg, Institute of Criminal Sciences. http://www2.jura.uni-hamburg.de/instkrim/kriminologie/Mitarbeiter/Enzmann/Publikationen/Enzmann_2015.pdf

Hedges, L. V. (1981). Distribution theory for Glass’s estimator of effect size and related estimators. Journal of Educational Statistics, 6, 107–128.

Smith, M.L., Glass, G.V. (1977). Meta-analysis of psychotherapy outcome studies. American Psychologist, 32(9), 752–760.