Odcinek 6 – Jak porównywać wyniki eksperymentów, czyli problemów z eta2 ciąg dalszy

W poprzednim odcinku działu statystycznego opisałem, na czym polegają różnice między dwoma popularnymi miarami wielkości efektu, mianowicie między eta2 i etap2. Pokazałem, że o ile w jednoczynnikowej analizie wariancji oba współczynniki są równe i mają taką samą interpretację (procent całkowitej zmienności wyników wyjaśniony przez zmienną uwzględnioną w analizie), o tyle w modelu wieloczynnikowym eta2 będzie mniejsza lub co najwyżej równa etap2, ich interpretacja będzie też nieco inna  (etap2 dla pojedynczego czynnika pokaże, jak duży procent zmienności niewyjaśnionej przez pozostałe czynniki można z nim powiązać). Oba jednak pomagają ocenić, na ile znaczące są poszczególne zmienne uwzględnione w analizowanym modelu.

Jak wspomniałem w pierwszym z wydań Biuletynu, celem stosowanie standaryzowanych miar wielkości efektu jest jednak nie tylko ocena znaczenia, ale też ułatwienie dokonywania porównań między wynikami uzyskanymi w różnych badaniach. Pod tym względem współczynniki eta2 i etap2 są dość problematyczne i mogą prowokować mniej zorientowanych czytelników (i – niestety – czasem też samych badaczy!) do wyciągania błędnych wniosków z rezultatów analiz opisywanych w literaturze naukowej.

Odwołując się do przykładu podobnego, jak podczas ostatniego spotkania, wyobraźmy sobie ponownie, że chcemy ocenić związek płci z wynikami naszego testu badającego zdolności językowe, i chcemy w tym celu porównać wyniki dwóch niezależnych analiz (górny i dolny przykład na rysunku). W pierwszym wypadku (górny wykres) kontrolujemy jedynie płeć (pole „A”), w drugim wprowadzamy dodatkową zmienną (pole „B”) oraz interakcję między nimi. Pole „E” oznacza błąd, czyli zmienność niepowiązaną z żadnym z czynników.

 

biuletyn-eta2

 

Patrząc na dolną cześć ryciny, rozważmy sytuację po lewej stronie. Niech dodatkowym czynnikiem „B” będzie (podobnie jak w poprzednim odcinku) wykształcenie (np. podstawowe, średnie lub wyższe). Porównując górny i dolny wykres i odwołując się do wartości eta2, widzimy, że w obu badaniach znaczenie płci jako czynnika tłumaczącego wyniki testowe jest takie samo (eta2 = 0.30). Nie ma znaczenia, czy kontrolujemy jakieś dodatkowe, potencjalnie ważne zmienne. Odwołując się do wartości etap2 możemy jednak odnieść mylne wrażenie, że w drugim z badań (przykład dolny po lewej) znaczenie płci jest ponad dwa razy większe (etap2 = 0.30 w pierwszym i etap2 = 0.67 w drugim z przykładów). Dzieje się tak dlatego, że dodatkowa zmienna wykształcenie, choć nie wpłynęła na całkowitą zmienność wyników, dała radę „wytłumaczyć” część zmienności niezwiązanej z płcią. W efekcie wielkość pola „E”, będąca podstawą do wyliczenia etap2, znacząco się zmniejszyła.

Podany przykład sugeruje, że etap2 może być współczynnikiem mylącym i bardziej wiarygodne, stabilne porównania siły efektu uzyskamy opierając się na zwykłym eta2. Jest to jednak tylko jedna strona medalu. W naszym pierwszym przykładzie bowiem oba czynniki miały charakter zmiennych opisowych – każdy z badanych charakteryzował się zarówno płcią, jak i wykształceniem (i wieloma innymi cechami) niezależnie od tego, czy uwzględnialiśmy je w analizie (wpływ tych nieuwzględnionych zmiennych tworzy wariancję błędu). Jeszcze przed wyborem modelu badawczego „oddziaływały” one na wyniki uzyskane w naszym przykładowym teście, a ich uwzględnienie (bądź brak) w prowadzonej analizie nie ma już, po fakcie, wpływu na całkowitą zmienność uzyskanych wyników. Ma za to wpływ na to, jak duża część zmienności zostanie „niewyjaśniona”, stąd widoczne różnice w wielkości etap2.

Często jednak porównujemy badania, których konstrukcja ma związek z uzyskiwanymi wynikami. Rozważmy teraz dolny wykres z prawej strony i wyobraźmy sobie, że tym razem czynnik „B” to nie wykształcenie, ale na przykład manipulacja eksperymentalna związana z poziomem zmęczenia (i podzieliliśmy badanych na osoby wypoczęte i takie, które wykonywały test po długotrwałym braku snu). Ponieważ w pierwszym przykładów (na górze, bez czynnika „B”) nie wprowadzaliśmy takiej manipulacji, osoby badane były do siebie bardziej podobne. Po wprowadzeniu grupy z brakiem snu, bardzo prawdopodobne jest, że zróżnicowanie wyników wzrośnie. Oba badania będą różnić się więc ogólną zmiennością wyników (czyli całkowitą powierzchnią naszego prostokąta). W tej sytuacji eta2 dla płci (czynnik „A”) w prawym dolnym przykładzie będzie miało mniejszą wartość. Z kolei etap2 może mieć podobną wartość w obu badaniach (górny i dolny przykład), jeśli poziom zmęczenia (dodatkowy czynnik „B”) nie zmniejszy wartości błędu związanego z płcią osób badanych (w tym wypadku zawartego w polu „E”, którego powierzchnia została taka sama).

Widać więc, że zależnie od tego, czym różnią się porównywane badania, eta2 lub etap2 mogą być lepszym wskaźnikiem pozwalającym porównać wielkość efektu dla poszczególnych czynników. Uogólniając, porównując badania różniące się zmiennymi o charakterze opisowym, bardziej adekwatną miarą wydaje się być eta2, zaś w badaniach różniących się liczbą czynników manipulowalnych bardziej adekwatna może być etap2. W praktyce jednak dodatkowe zmienne w sposób istotny wpływają często zarówno na wariancję całkowitą, jak i na wielkość błędu, i żaden ze współczynników nie ułatwia dokonywania miarodajnych porównań. Z tego też powodu nie ma w literaturze zgodności, którą z miar lepiej stosować.

Trzeba też dodać, że sytuacja komplikuje się jeszcze bardziej, gdy weźmiemy pod uwagę analizę wariancji w modelu mieszanym, tj. z czynnikami międzyosobowymi i powtarzanym pomiarem zmiennej zależnej. Analiza wariancji z powtarzanym pomiarem rozdziela zmienność wyników na część związaną z kolejnymi pomiarami u tej samej osoby i część związaną z różnicami międzyosobowymi, co sprawia, że w przypadku etap2 dla zmiennych wewnątrzosobowych i międzyosobowych uwzględniany jest inny składnik błędu. Z tego powodu, w modelu takim wartości etap2 dla czynników między i wewnątrzosobowych są praktycznie nieporównywalne nawet w pojedynczej analizie. Z kolei eta2 (uwzględniające całość zmienności wyników), choć bardziej miarodajna, może przyjmować bardzo małe wartości, co zwykle zniechęca badaczy do ich podawania.

Jak na razie, wszelkie próby poradzenia sobie z tymi problemami nie zyskują popularności. Ciekawą propozycją jest np. opisana w 2003 przez Stephena Olejnika i Jamesa Alginę ujednolicona miara w postaci uogólnionej eta2 (etaG2), w której proporcja wariancji wyjaśnionej jest obliczana przy uwzględnieniu, które z czynników modelu mają charakter obserwowalny, a które są przedmiotem manipulacji. Ten zabieg ma umożliwić porównywalność etaG2 między różnymi modelami badawczymi. Skorygowaną wersją tego współczynnika, analogicznie jak w przypadku eta2, jest ωG2. Miary te, jak na razie, nie są jednak zbyt często stosowane.

Ponieważ jednak standardem egzekwowanym przez czasopisma naukowe jest podawanie miar wielkości efektu przy publikacji wyników badań, naukowcy muszą podjąć decyzję, którą z miar (etaG2, ωG2 lub eta2, ε2, ω2 i ich cząstkowe odpowiedniki) będą się posługiwać. Mimo wielu wad, w praktyce najczęstszy jest prawdopodobnie współczynnik etap2, gdyż, po pierwsze, to właśnie etap2 jest wyliczana automatycznie w programie SPSS, po drugie, jej wartości są relatywnie wyższe niż pozostałych miar, co rodzi poczucie, że pokazują większą siłę badanych efektów, a na tym zwykle zależy naukowcom prezentującym wyniki swych badań. Niezależnie od wyboru, najważniejsze jest jednak, by autorzy jasno precyzowali, którym ze współczynników się posługują, a czytelnicy umieli właściwie zinterpretować, co oznaczają prezentowane przez naukowców wartości.

 

dr Piotr Zieliński

Wojskowy Instytut Medycyny Lotniczej

 

 

Pozycje cytowane:

Olejnik, S., Algina, J. (2003). Generalized eta and omega squared statistics: measures of effect size for some common research designs. Psychological Methods, 8, 434-447.