Analiza wariancji jest znaną i popularną metodą analizy statystycznej. Może być ona wykorzystywana w różnych, często dość złożonych modelach badawczych, jednak z jej najprostszą formą mamy do czynienia wtedy, gdy osoby badane, u których dokonywaliśmy jakiegoś pomiaru (np. szybkości reakcji, natężenia stresu, liczby interakcji społecznych itp.) są podzielone na podstawie pojedynczej zmiennej grupującej (przy czym może to być podział naturalny, np. płeć, jak i zaaranżowany przez badacza, np. przydział do grupy kontrolnej lub eksperymentalnej). Najogólniej rzecz ujmując, ocena, czy różnice między grupami są istotne statystycznie, opiera się na porównaniu zróżnicowania wyników, które można powiązać z czynnikiem grupującym, ze zróżnicowaniem wyników, które nie wiąże się z podziałem na grupy.
W poprzednim odcinku opisałem miarę zwaną eta2, która pokazuje, jak duży procent ogólnej zmienności wyników jest powiązany z uwzględnioną w analizie zmienną grupującą. W kontekście jednoczynnikowej analizy wariancji jest to prawdopodobnie najczęściej przywoływana miara wielkości efektu. Może ona przyjmować wartości od 0 do 1, przy czym wartość 0 oznacza sytuację, w której podział na grupy zupełnie nie łączy się z widoczną zmiennością wyników, zaś wartość 1 (czyli 100% wyjaśnionej wariancji) jest w zasadzie granicą teoretyczną, gdyż jest możliwa do uzyskania tylko w sytuacji, gdy wszystkie osoby w obrębie pojedynczej grupy uzyskują wynik identyczny i przynajmniej w jednej z grup jest to wynik inny niż w pozostałych grupach (byłby to przykładowy Wariant 1 z poprzedniego wydania Biuletynu). W praktyce wartość maksymalna jest znacznie niższa i zależy m.in. od rozkładu wyników, np. dla zmiennej o rozkładzie normalnym maksymalna wartość wynosi około 0.64 (Richardson, 2011).
Poza współczynnikiem eta2, którego idea pojawia się już w literaturze statystycznej początków XX wieku (Pearson, 1905), w drugiej połowie XX wieku (np. Cohen, 1973) coraz częściej przywoływany jest też inny, podobny współczynnik, zwany cząstkową eta2 (etap2). Podobnie jak eta2 ma on teoretyczny zakres od 0 do 1 (i podobne ograniczenia dotyczące realnej, maksymalnej wartości), jego interpretacja jest jednak nieco inna. Niestety wielu badaczy stosuje obie nazwy dość dowolnie, a do ogólnego zamętu dodatkowo przyczynił się popularny program statystyczny SPSS, którego wcześniejsze wersje wyliczały jedynie etap2, ale opisywały wyliczone wartości jako eta2. Aby zobaczyć, na czym polega różnica między tymi miarami bez odwoływania się do szczegółowych wzorów, spróbujmy wyobrazić sobie całość zmienności wyników jako koło, którego wycinki odpowiadają poszczególnym czynnikom uwzględnionym w analizie wariancji.
Przyjmijmy na przykład (zupełnie hipotetycznie), że sprawdzamy, czy wyniki w teście zdolności językowych różnią się ze względu na różne zmienne demograficzne. W pierwszym przypadku (wykres po lewej) jedynym testowanym czynnikiem może być płeć (pole „A”). Jak widać, zajmuje on 30% powierzchni koła, co oznacza, że płeć w naszym przykładzie tłumaczy 30% całkowitej zmienności wyników testowych (eta2 = 0.30). W drugim przypadku (wykres po prawej) poza płcią wprowadźmy dodatkowo czynnik wykształcenie (pole „B”) oraz interakcję między nimi („A x B”), która pokazuje, czy różnice międzypłciowe są podobne, czy różne na poszczególnych poziomach wykształcenia. Jak widać, wykształcenie to około 15%, a interakcja płci i wykształcenia około 10% powierzchni koła. W obu przypadkach pozostaje też część zmienności wyników, która jest niewyjaśniona, zwana tradycyjnie błędem (pole „E”).
Współczynnik eta2 oznacza proporcję zmienności związanej z badanym czynnikiem w stosunku do całkowitej zmienności. Dla płci w obu przypadkach eta2 wynosi więc 0.30, bo dodanie czynnika wykształcenie nie wpływa ani na wkład płci, ani na zmienność całkowitą (czyli całą powierzchnię koła). Dodatkowo, w drugim z przypadków eta2 dla wykształcenia wynosi 0.15, a dla interakcji A x B eta2 = 0.10. Jeśli dodamy do tego proporcję powierzchni E (czyli 0.45), otrzymamy 1 (bo 0.30 + 0.15 + 0.10 + 0.45 = 1), czyli 100% zmienności wyników.
Współczynnik etap2 pokazuje, jak dużo zmienności wyjaśnia badany czynnik w stosunku do zmienności, która nie jest powiązana z pozostałymi czynnikami w modelu. W pierwszym przypadku będzie to więc proporcja A do (A + E), dzięki czemu etap2 = 0.30, czyli tyle samo co eta2. Dzieje się tak dlatego, gdyż w tym przypadku (A + E) to całkowita zmienność (pełne koło). Widać więc, że w jednoczynnikowych modelach analizy wariancji eta2 i etap2 są w zasadzie tą samą miarą.
W drugim przypadku (wykres z prawej strony) pole E jest mniejsze, gdyż część początkowej wariancji błędu została „wytłumaczona” przez dodanie czynników B oraz A x B. W tym wypadku etap2 dla płci, czyli proporcja A do (A + E), wynosi aż 0.67, bo wartość A jest taka sama, jak w pierwszym przykładzie, ale wartość E zmalała. Dzięki temu etap2 jest wyraźnie wyższa od eta2. Co istotne, etap2 dla wykształcenia wynosi 0.33 (stosunek B do B + E), a dla interakcji płci i wykształcenia wartość etap2 to 0.22. Jak widać, nawet pomijając proporcję powierzchni E, suma obliczonych etap2 wynosi w tym przykładzie 1.22. Gdybyśmy chcieli (błędnie!) interpretować etap2 tak samo jak eta2, wyszłoby nam, że całkowita zmienność wyników wynosi więcej niż 100%. To, że etap2 nie sumuje się do jedności jest dość ważną cechą tego współczynnika i czasem jedyną możliwością upewnienia się, na którą z tych dwóch miar powołują się autorzy tekstów naukowych (jeśli suma współczynników przekracza 1, możemy być pewni, że to cząstkowe eta2, nawet, jeśli tekst tego nie precyzuje).
Który z tych dwóch współczynników jest właściwszy? Mając do czynienia z pojedynczym badaniem, w zasadzie nie jest to aż tak istotne. W obu wypadkach porównanie ich wielkości dla poszczególnych czynników pokazuje, który z tych czynników ma relatywnie większy wkład w wyjaśnianie różnic w wynikach osób badanych. Oczywiście ocena, czy wkład ten jest duży, czy mały jest oceną relatywną, podobnie jak przy innych miarach wielkości efektu. Jeśli stwierdzimy na przykład, że barwa ścian pomieszczenia odpowiada tylko w 5% za zróżnicowanie poziomu stresu odczuwanego w pracy, to prawdopodobnie efekt ten należy uznać za trywialny, gdyż inne czynniki (obciążenie pracą, relacje z przełożonymi itp.) w dużo większej mierze stanowią o tym, na ile ludzie czują się w miejscu pracy zestresowani. Z drugiej strony, jeśli porównujemy dwa nowe leki o identycznym koszcie produkcji i identycznych skutkach ubocznych, to stwierdzenie, że rodzaj leku tłumaczy 5% zmienności wyników leczenia (czyli leki różnią się między sobą skutecznością) jest dość jednoznacznym argumentem przy decyzji, który nich skierować do masowej produkcji. Ocena wielkości eta2 i znaczenia wyniku każdorazowo powinna być więc uzależniona od przedmiotu i struktury badania. Krytycy dość często uzasadniają tę relatywność faktem, że wartości eta2 można łatwo „podbić”, dodając do badania grupę znacznie odbiegającą od pozostałych – np. przy badaniu zdolności językowych dodając do zmiennej wykształcenie (podstawowe, średnie, wyższe) czwartą grupę, np. profesorowie filologii, znacząco możemy zwiększyć wariancję wyników tłumaczoną przez ten czynnik, co nieco sztucznie podniesie jego „rangę”.
Trzeba też pamiętać, że interpretacja eta2 i etap2 jest nieco inna. W pierwszym wypadku (eta2) pokazujemy, jaki jest wkład poszczególnych czynników w całkowitą zmienność widoczną w wynikach. W drugim wypadku (etap2) – jak silnie każdy z czynników tłumaczy tę część zmienności, której nie tłumaczą pozostałe z nich. Ale, tak czy inaczej, oba pomagają nam ocenić, jak duże jest znaczenie poszczególnych zmiennych w analizowanym modelu. Problem pojawia się jednak, gdy nie mamy do czynienia z pojedynczą analizą, ale zamierzamy porównywać między sobą wyniki kilku niezależnych badań. Do tego problemu powrócimy w kolejnym wydaniu Biuletynu.
Niezależnie od tego, czy stosujemy współczynnik eta2, czy etap2, musimy też pamiętać, że są to tzw. współczynniki obciążone. Dobrze odzwierciedlają one proporcję wyjaśnionej zmienności w badanej próbie, jednak zawyżają wielkość efektu szacowaną dla całej populacji (a zazwyczaj chodzi nam właśnie o wypowiadanie się na temat populacji, a nie na temat przebadanej próbki osób). To obciążenie jest szczególnie duże w małych próbach i miarowo zmniejsza się wraz ze wzrostem liczby osób badanych (choć jest wciąż widoczne nawet przy około 100 osobach na grupę). Z tego względu już dawno w literaturze zostały opisane współczynniki skorygowane, których zadaniem jest jak najtrafniejsze szacowanie proporcji wyjaśnionej wariancji na poziomie populacyjnym. Najbardziej znane z nich to ε2 (epsilon kwadrat; Kelley, 1935) oraz ω2 (omega kwadrat; Hays, 1963). Oba, podobnie jak eta2, mogą być obliczane zarówno w wariancie „zwykłym”, jak i w postaci współczynników cząstkowych – ich interpretacja jest wtedy analogiczna jak w przypadku eta2 i etap2, tyle, że odnosi się do wielkości efektu na poziomie populacji, a nie wyłącznie w badanej próbie. Analizy pokazują jednak, że współczynniki te są z kolei nieznacznie negatywnie obciążone, tzn. zaniżają prawdziwe wartości populacyjne, szczególnie w przypadku małych prób badanych. Choć obciążenie to jest znacznie mniejsze niż w przypadku eta2 (Okada, 2013), to z jego względu oraz dlatego, że ε2 i ω2 nie są bezpośrednio dostępne w popularnych pakietach statystycznych, miary te są cytowane w literaturze relatywnie rzadziej niż współczynniki eta2 i etap2.
dr Piotr Zieliński
Wojskowy Instytut Medycyny Lotniczej
Pozycje cytowane:
Cohen, J. (1973). Eta-squared and partial eta-squared in fixed factor ANOVA designs. Educational and Psychological Measurement, 33, 107-112.
Hays, W. L. (1963). Statistics for psychologists. New York: Holt, Rinehart & Winston.
Kelley, T. L. (1935). An ubiased correlation ratio measure. Proceedins of the National Academy of Sciences, 21, 554-559.
Okada, K. (20130. Is omega squared less biased? A comparison of three major effect size indices in one-way ANOVA. Behaviormetrika, 40, 129-147.
Pearson, K. (1905). Mathematical contributions to the theory of evolution: XIV. On the general theory of skew correlations and nonlinear regression (Draper’s Company Research Memoirs, Biometric Series II). London: Dulan.
Richardson, J. T. E. (2011). Eta squared and partial eta squared as measures of effect size in educational research. Educational Research Review, 6, 135-147.