W dotychczasowych wydaniach Biuletynu dokonałem przeglądu różnych miar wielkości efektu statystycznego. Przegląd ten miał dość wybiórczy charakter, starałem się jednak uwzględnić w nim większość popularnych miar, na jakie wnikliwy czytelnik może natknąć się we współczesnej literaturze naukowej. Zacząłem więc od oceny wielkości różnicy między średnimi w dwóch grupach [Odcinek 2]. Następnie pokazałem, jak w badaniach, w których porównujemy ze sobą klika grup, zastosować można miary opisujące, jak duży procent zmienności w interesujących nas wynikach jest związany z jakimś czynnikiem grupującym (lub zbiorem takich czynników) [Odcinek 4]. Co jednak zrobić, gdy chcemy dowiedzieć się, jak silnie nasza badana zmienna (np. zdolności przestrzenne) jest związana nie z kilkuwartościowym czynnikiem (np. płeć), ale ze zmienną, która ma wielowartościowy charakter (np. wiek, wyrażony w latach)? Tu przydatne mogą być miary siły związku takie jak współczynniki korelacji (ich krótki przegląd znalazł się w poprzednim odcinku naszego działu [Odcinek 7]). Na przykład, popularny współczynnik korelacji r Pearsona podniesiony do kwadratu daje nam tzw. współczynnik determinacji, który pokazuje, jak duży jest procent zmienności wspólnej między naszymi zmiennymi.
Ograniczeniem korelacji r Pearsona jest jednak to, że dotyczy ona związku jedynie dwóch zmiennych. A przecież już model analizy wariancji, który przywoływałem w poprzednich wydaniach Biuletynu przy okazji opisywania współczynników eta2 i eta2p [Odcinek 5], pozwalał ocenić związek interesującej nas zmiennej nie tylko z jedną, ale z kilkoma zmiennymi niezależnymi (np. w badaniu zależności zdolności językowych równocześnie od płci i wykształcenia osób badanych). Kiedy jednak jedna lub więcej z tych zmiennych niezależnych ma charakter ciągły, to – jeśli nie chcemy dokonywać nadmiernych uproszczeń – analiza wariancji nie jest adekwatnym podejściem. W takim przypadku sensowną, i chyba zarazem najpopularniejszą metodą, jest zastosowanie analizy regresji, w której interesująca nas zmienna może być przewidywana przez dowolny zestaw zmiennych niezależnych. A nieodłącznym – przynajmniej z perspektywy publikowanych badań – elementem analizy regresji jest miara wielkości efektu w postaci R2. Jest to, podobnie jak wspomniany wyżej r2, współczynnik determinacji, tyle, że tym razem oparty na współczynniku korelacji wielokrotnej (R) i, podobnie jak r2, zawiera się w przedziale od 0 do 1. Współczynnik ten jest chyba najbardziej znaną miarą wielkości efektu ze wszystkich opisywanych dotychczas w naszym cyklu statystycznym, więc żaden przegląd tych miar nie może być kompletny bez jego prezentacji.
Na początek warto przypomnieć, jak w ogóle analizę regresji należy rozumieć. Wyobraźmy sobie, że jest pewna cecha psychologiczna (np. zdolności językowe), której poziomem w jakiejś grupie osób jesteśmy zainteresowani. Interesuje nas w szczególności, czy mając dodatkowe informacje o osobach z badanej grupy (np. o ich wieku, płci, poziomie inteligencji ogólnej, być może o ocenach szkolnych) jesteśmy w stanie przewidywać, jaki poziom interesującej nas cechy każda z tych osób przejawia. Tworzymy więc z tych dodatkowych zmiennych (wieku, płci itd.) równanie regresji, które, najlepiej jak się da, pozwala nam przewidywać wynik, czyli poziom mierzonej cechy (zdolności językowych). Prawdopodobnie przewidywania nie będą idealne. Po pierwsze dlatego, że na poziom naszej cechy wpływają też z całą pewnością inne zmienne, których nie uwzględniliśmy w równaniu (np. poziom tej cechy u rodziców osoby badanej); po drugie, z powodu błędu pomiaru (jak to bywa w psychologii, nasze narzędzie do określania zdolności językowych nie jest pewnie super precyzyjne); po trzecie, z powodu czysto losowego błędu, z którym mamy do czynienia wtedy, gdy badamy zależność populacyjną, mając do dyspozycji jedynie losową próbkę z tej populacji. Tak czy inaczej, po zastosowaniu naszego równania regresji otrzymujemy, dla naszej grupy, zbiór wyników przewidywanych, i możemy go porównać z wynikami, które naprawdę uzyskali nasi badani. Dla każdej z osób, różnica między jej realnym, obserwowanym wynikiem a wynikiem, jaki przewidzieliśmy w oparciu o równanie regresji, to tzw. reszta (jak widać, reszta to coś więcej niż zwykły błąd – kryje się w niej po prostu wszystko to, czego nie byliśmy w stanie uwzględnić w naszym modelu).
Mając w głowie ten nieco uproszczony opis modelu regresji, możemy teraz pokazać, że R2 może być definiowany na różne sposoby. Po pierwsze, współczynnik ten traktowany jest jako proporcja zmienności wyjaśnionej do całkowitej zmienności wyników; to sposób myślenia, którym zajmowaliśmy się już omawiając miarę eta2 w analizie wariancji. Wariancja całkowita składa się zaś właśnie z wariancji wyjaśnionej oraz z wariancji resztowej. Im mniejsze są reszty (a więc im dokładniej nasze równanie przewiduje realny wynik), tym większe znaczenie ma wariancja wyjaśniona. R2 równe jeden oznacza, że przewidzieliśmy wynik idealnie (reszty wynoszą 0). R2 równe zero oznacza z kolei, że wariancja wyników to wyłącznie wariancja resztowa, a zmienne z naszego równania nie pomagają w przewidywaniach.
Ta definicja jest w zasadzie identyczna jak definicja współczynnika eta2, i nie jest to tylko przypadek! W sytuacji, gdy mamy tylko jedną zmienną wyjaśniającą (np. chcemy przewidywać poziom zdolności językowych jedynie w oparciu o płeć), eta2 z ANOVA jest dokładnie tym samym, co R2 w analizie prowadzonej za pomocą modelu regresji i przyjmuje taką samą wartość. Sprawa komplikuje się dopiero, gdy przewidujemy interesującą nas cechę równocześnie za pomocą kilku predyktorów (np. płeć i wykształcenie). Współczynnik eta2 był, jak pamiętamy, określany dla każdej z tych zmiennych oddzielnie (co pozwalało porównywać, jak duży związek z przewidywanym poziomem zdolności ma płeć, a jak duży wykształcenie). R2 liczone jest zaś łącznie dla całego równania regresji i pokazuje, jak dobrze sprawdza się model, nie pokazuje jednak, jak duży jest indywidualny wkład poszczególnych zmiennych w tym modelu uwzględnionych. Drugi problem związany jest z samą naturą takiego sposobu wyliczania wielkości efektu – jak być może pamiętamy, eta2 to współczynnik obciążony, gdyż zawyża nieco realną, populacyjną wielkość efektu statystycznego. Jak łatwo się domyślać, to samo dotyczy też R2. Do obu tych problemów (tj. określania indywidualnego wkładu poszczególnych zmiennych, oraz do korygowania obciążonej wartości R2) wrócimy w kolejnych odcinkach naszego Biuletynu.
Drugi sposób myślenia o R2 to traktowanie tej wartości jako wskaźnika pokazującego, jak bardzo wprowadzenie zmiennych wyjaśniających poprawiło nasz model w stosunku do tzw. modelu zerowego, tj. modelu, w którym nie ma żadnych predyktorów. Aby zrozumieć, czym jest model zerowy, wyobraźmy sobie, że mamy za zadanie jak najlepiej przewidzieć poziom zdolności językowych u osób pochodzących z badanej przez nas grupy. Jednak… poza pomiarem zdolności językowych, nie mamy o tych osobach żadnej innej wiedzy! Jak w takiej sytuacji możemy przewidzieć poziom tych zdolności u losowo wybranej osoby? W zasadzie musimy „strzelać”. Ale…! pewne wartości są bardziej prawdopodobne niż inne, i dają większą szansę, że „strzelając”, nie popełnimy błędu. Zakładając, że mierzone przez nas zdolności mają w miarę symetryczny, zbliżony do normalnego rozkład, najczęściej występującą w grupie wartością – a więc taką, przy której szansa na szczęśliwe „trafienie” jest największa – jest po prostu wartość średnia. I to właśnie robimy w modelu zerowym – przewidujemy po prostu, że wynikiem osoby badanej jest średnia populacyjna. Prawdopodobnie w większości wypadków się mylimy, więc wariancja resztowa w takim modelu jest całkiem spora. Wyobraźmy sobie teraz, że zyskujemy o badanych dodatkową, istotną informację (np. oceny szkolne) i wprowadzamy ją do równania regresji. Nasze przewidywania powinny być trafniejsze niż czyste „strzelanie w średnią”. Reszty będą więc mniejsze. I właśnie to zmniejszenie wariancji resztowej w modelu regresji, w stosunku do modelu zerowego, jest odzwierciedlane przez poziom R2. Niewielkie R2 oznacza, że nasz model jest niewiele lepszy niż przypisywanie wszystkim badanym wyników na poziomie średniej ogólnej. Wysokie R2 oznacza, że przewidywanie wyników osób badanych jest znacznie lepsze niż zwykły „szczęśliwy strzał”.
Po trzecie wreszcie, możemy traktować R2 jako podniesioną do kwadratu korelację między wynikami przewidywanymi a wynikami realnie obserwowanymi. Ponieważ w tzw. regresji prostej, czyli takiej, w której mamy tylko jeden predyktor, relacja między tym pojedynczym predyktorem a wynikiem przewidywanym jest bardzo bezpośrednia, oznacza to, że R2 w równaniu regresji, którym np. przewidujemy poziom zdolności językowych na podstawie wieku, równe jest po prostu podniesionej do kwadratu korelacji między wiekiem a tymi zdolnościami (czyli r2, gdzie r oznacza korelację Pearsona). W przypadku regresji wielorakiej, tj. takiej, w której wprowadzonych jest równocześnie kilka predyktorów, nie ma już tak bezpośredniego związku między pojedynczymi zmiennymi, ale wciąż prawdą jest, że R2 to r2 dla związku wyników obserwowanych i przewidywanych.
Powyższe definicje wymagają jeszcze jednego, ważnego komentarza – wszystkie one odnoszą się do klasycznej regresji, opartej na tzw. metodzie najmniejszych kwadratów. Rodzajów modeli regresji jest jednak w statystyce znacznie więcej. Mamy więc choćby uogólnione modele liniowe, w tym np. regresję logistyczną, mamy liniowe modele mieszane (i uogólnione liniowe modele mieszane), czyli tzw. regresję wielopoziomową, mamy regresję nieliniową… Te i inne podejścia mają specyficzne dla siebie sposoby szacowania modeli i określania parametrów równania regresji, i nie pozwalają na zastosowanie R2 w takim rozumieniu, jak opisałem to wyżej. I choć często posługujemy się w nich pojęciem R2 (wydawcy artykułów bardzo to lubią), trzeba pamiętać, że stosowane w tych modelach miary wielkości efektu nie muszą być tożsame z podanymi wyżej definicjami, a ich interpretacja może być za każdym razem nieco inna (np. nie będą się zawierać w przedziale od 0 do 1). Generalnie, poza klasycznym modelem regresji, lepiej przezornie przyjąć, że jeden R2 drugiem R2 nierówny, i z dużą ostrożnością podchodzić do interpretacji tej – jakże popularnej – miary. Problemem tym zajmiemy się nieco szerzej w jednym z kolejnych odcinków naszego cyklu. Najpierw jednak – w kolejnym spotkaniu – powrócimy do regresji opartej na metodzie najmniejszych kwadratów i przyjrzymy się, jak wiele przydatnych (i nieobciążonych!) informacji można w tych modelach z naszego R2 wyczytać.
Piotr Zieliński – dr psychologii, pracownik Zakładu Psychologii Lotniczej w Wojskowym Instytucie Medycyny Lotniczej. Specjalizuje się w psychometrii, psychologii lotniczej i psychologicznych aspektach widzenia barwnego.