W poprzednim biuletynie zajmowaliśmy się miarą wielkości efektu w postaci standaryzowanej różnicy między dwiema średnimi, która pozwala ocenić realną istotność (tj. ważność) tej różnicy, a także porównywać wyniki badań prowadzonych z zastosowaniem odmiennych wskaźników. Szacując wielkość tej różnicy zazwyczaj posługujemy się miarą zwaną d Cohena, choć najczęściej jest ona wyliczana według wzoru zaproponowanego przez Larry’ego Hedgesa (1981), pozwalającego na jej obliczenie w grupach o różnej liczebności. Tak rozumiane d Cohena jest jednak wskaźnikiem nieznacznie obciążonym, zawyżającym wartość populacyjną – aby temu zaradzić, można posłużyć się jego wersją skorygowaną, najczęściej określaną mianem g Hedgesa.
Ta standaryzowana różnica może być wyliczana w różnych modelach badawczych (interesującą możliwością jest np. jej wyliczanie w badaniach pretest-posttest na podstawie parametrów regresji prowadzonej w liniowym modelu mieszanym, por. Feingold, 2013), najczęściej jednak kojarzona jest z klasycznym testem t Studenta i – podobnie do testu t – jej wiarygodne oszacowanie jest możliwe po spełnieniu podobnych założeń. W przypadku ich niespełnienia można posłużyć się miarami alternatywnymi – np. w przypadku heterogeniczności wariancji zalecane jest stosowanie współczynnika Δ Glassa, w którym jedną z grup traktujemy jako grupę kontrolną. W przypadku mocno skośnych rozkładów można posłużyć się jedną z tzw. metod odpornych (robust statistics), np. zaproponowaną przez Yuena (por. Yuen, 1974; kwestia metod odpornych to w zasadzie temat na oddzielną edycję biuletynu).
Jak jednak interpretować oszacowaną wartość d (lub pokrewną)? Przypomnijmy sobie przykład z poprzedniego spotkania, w którym stuosobowa grupa strażaków uzyskała w kwestionariuszu średni wynik wynoszący 78 punktów, a porównywana z nią stuosobowa grupa policjantów – średni wynik równy 90 punktów. Odchylenie standardowe w obu grupach wynosiło 16, a różnica między nimi (12 punktów) była istotna statystycznie. Ponieważ w tym hipotetycznym przykładzie zarówno liczebności, jak i odchylenia obu grup są identyczne, wartości d (niezależnie od stosowanego wzoru) i Δ są jednakowe i wynoszą 0,75, a skorygowane g (0,747) po zaokrągleniu także przyjmuje tę samą wartość. Można więc powiedzieć, że jeśli za punkt odniesienia przyjmiemy średni wynik w grupie strażaków (78 punktów), to średni wynik w grupie policjantów leży dokładnie 3/4 odchylenia standardowego powyżej tego punktu. Co to dokładnie oznacza?
Jacob Cohen (1988) dla lepszego opisu standaryzowanej różnicy d powiązał ją z enigmatycznie brzmiącymi miarami U1, U2 i U3.
U1 oznacza procent, w jakim łącznie potraktowane rozkłady obu populacji nie porywają się.
U2 oznacza górny procent rozkładu jednej populacji przekraczający taki sam dolny procent rozkładu drugiej populacji (owszem, brzmi skomplikowanie…).
U3 oznacza procent rozkładu populacji o wyższym wyniku, który leży powyżej średniej w populacji o wyniku niższym.
Odnosząc to do wyników naszych strażaków i policjantów (i wartości d równej 0,75) możemy powiedzieć, że około 45% powierzchni leżącej pod rozkładami obu populacji nie pokrywa się (U1=0,452), około 65% górnej części rozkładu wyników policjantów leży powyżej dolnych 65% rozkładu wyników strażaków (U2=0,646), a około 77% rozkładu wyników w grupie policjantów leży powyżej średniego wyniku w grupie strażaków (U3=0,773).
Ponieważ procent powierzchni pod łącznie traktowanymi rozkładami obu populacji (U1) jest miarą mało intuicyjną, można też posłużyć się wskaźnikiem OVL (overlapping), który pokazuje, jaki procent powierzchni rozkładu wyników jednej populacji pokrywa się z rozkładem wyników drugiej populacji (np. Reiser i Faraggi, 1999). W naszym przykładzie OVL wynosi około 0,708, co oznacza, że około 71% rozkładu wyników w populacji policjantów pokrywa się z wynikami z populacji strażaków. Wszystkie opisane miary prezentuje poniższy wykres.
Jak jednak powiedzieć to wszystko bardziej „po ludzku”? W 1992 roku Kenneth O. McGraw i Seok P. Wong zdefiniowali miarę, którą określili mianem potocznie rozumianej wielkości efektu (common language effect size, CL) a Robert J. Grissom (1994) określił ją mianem prawdopodobieństwa przewagi (probability of superiority). Najprościej można określić ją jako prawdopodobieństwo, że losowo wybrana osoba z populacji o wyższych wynikach faktycznie będzie miała wynik wyższy, niż losowo wybrana osoba z populacji o wynikach niższych. W naszym przykładzie wartość ta wynosi 0,702, co można odczytać w ten sposób, że istnieje 70% szans, że losowo wybrany policjant będzie miał wyższy wynik niż losowo wybrany strażak. Innymi słowy, mniej więcej co trzeci raz (tj. z prawdopodobieństwem około 30%) zależność wykazana po poziomie średnich grupowych nie potwierdzi się na poziomie pojedynczych osób…
Ciekawą symulację wraz z wzorami pozwalającymi obliczyć większość z wymienionych wyżej miar znaleźć można pod adresem internetowym http://rpsychologist.com/d3/cohend/ Należy pamiętać jednak, że wszystkie powyższe miary można stosować przy założeniu, że rozkłady wyników w populacji są symetryczne i o równej wariancji, a same populacje są równoliczne (lub nieskończone). Często jednak założenia te nie mogą być bezpośrednio zweryfikowane – np. skośny rozkład wyników w grupie badanych nie wyklucza rozkładu normalnego w populacji. Z tego względu decyzja, czy założenia te są spełnione, ma w dużej mierze charakter teoretyczny.
Na zakończenie warto dodać, że przy spełnieniu tych założeń, wartość d może też być przekształcona na dobrze znany współczynnik korelacji r. Analizy, w których porównujemy średnie dwóch grup mogą być bowiem potraktowane jako korelacja punktowo-dwuseryjna między zmienną ciągłą (w naszym przykładzie – wynik w kwestionariuszu) a zmienną dwukategorialną (w naszym przykładzie grupa zawodowa, tj. strażacy albo policjanci). Dla przywołanego przykładu r wynosi około 0,35. Współczynnik determinacji (czyli r2) wynosi w takim razie około 0,12, co można interpretować w ten sposób, że patrząc łącznie na wyniki wszystkich osób biorących udział w naszym badaniu, czynnik grupa zawodowa tłumaczy około 12% zróżnicowania tych wyników.
W ten sposób płynnie przeszliśmy do drugiej, dużej grupy miar wielkości efektu, czyli miar określających procent wariancji wyjaśnianej przez kontrolowane zmienne. Właśnie tym miarom bardziej szczegółowo przyjrzymy się w kolejnych edycjach biuletynu. Jako uzupełnienie zaś, tabela podsumowująca wartości miar związanych z d dla wartości progowych podanych przez Cohena (np. 1988):
Wielkość efektu d U1 U2 U3 OVL CL r r2
brak 0.0 0.00 0.50 0.50 1.00 0.50 0.00 0.00
mała 0.2 0.15 0.54 0.58 0.92 0.57 0.10 0.01
średnia 0.5 0.33 0.60 0.69 0.80 0.64 0.24 0.06
duża 0.8 0.47 0.66 0.79 0.69 0.71 0.37 0.14
dr Piotr Zieliński
Wojskowy Instytut Medycyny Lotniczej
Pozycje cytowane:
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences, 2nd Edition. Hillsdale, NJ: Lawrence Erlbaum.
Feingold, A. (2013). A regression framework for effect size assessments in longitudinal modeling of group differences. Review of General Psychology, 17(1), 111-121.
Grissom, R.J. (1994). Probability of the superior outcome of one treatment over another. Journal of Applied Psychology, 79(2), 314–316.
Hedges, L. V. (1981). Distribution theory for Glass’s estimator of effect size and related estimators. Journal of Educational Statistics, 6, 107–128.
McGraw, K.O., S.P. Wong (1992). A common language effect size statistic. Psychological Bulletin, 111(2), 361–365.
Reiser, B., Faraggi, D. (1999). Confidence intervals for the overlapping coefficient: the normal equal variance case. Journal of the Royal Statistical Society, 48(3), 413-418.
Yuen, K.K. (1974). The two-sample trimmed t for unequal population variances. Biometrika, 61(1), 165-170.