W poprzednich odcinkach przedstawiłem, dość ogólnie, jak należy w modelach regresji liniowej rozumieć współczynnik R2 [Odcinek 8], przedstawiłem też dwa sposoby jego korekty, czyli R2adj i R2pred [Odcinek 9]. Do omówienia pozostaje jednak jeszcze kilka kwestii, w pewnym stopniu ze sobą powiązanych. Po pierwsze, w literaturze, poza R2, skorygowanym R2 czy przewidywanym R2 można spotkać się dość często z pojęciem zmiany czy delta R2 (czyli ΔR2), i wymaga ono krótkiego omówienia. Po drugie, wspominałem wcześniej, że klasyczna interpretacja R2 dotyczy regresji opartej na metodzie najmniejszych kwadratów, i nie zawsze sprawdza się w bardziej zaawansowanych modelach. Wspominałem też, że w modelu z wieloma zmiennymi R2 dotyczy zmienności wyjaśnianej przez cały model i niewiele mówi nam o znaczeniu poszczególnych zmiennych w tym modelu uwzględnionych. Tym problemom też wypada przyjrzeć się bliżej, a wspólnym mianownikiem dla nich może być właśnie… delta R2.
Grecka litera Δ (delta) stosowana jest często do oznaczania przyrostu jakiejś wartości, czyli różnicy między wartością końcową a początkową. Nie inaczej jest w przypadku R2, gdzie ΔR2 oznacza po prostu wzrost poziomu wyjaśnianej zmienności z jednego modelu na drugi, np. po dodaniu dodatkowej zmiennej wyjaśniającej (różnice taką, czyli ΔR2, jest sens liczyć jedynie dla tzw. modeli zagnieżdżonych, czyli w sytuacji, gdy mniejszy model zawiera się w większym). W pewnym sensie o przyroście wyjaśnionej wariancji mówiliśmy już, kiedy definiowaliśmy R2 jako zmniejszenie reszt (a więc wzrost wyjaśnionej zmienności) w stosunku do tzw. modelu zerowego [Odcinek 8]. Pojęciem ΔR2 posługujemy się jednak zwykle, gdy porównujemy ze sobą modele, z których oba zawierają już pewną liczbę predyktorów. Na przykład, mamy model, w którym przewidujemy poziom zdolności językowych w oparciu o oceny szkolne, z R2=0.3. Następnie chcemy sprawdzić, jak zmieni się R2 po dodaniu do modelu zmiennej płeć. Nowy wynik to R2=0.45. Delta R2 wynosi więc 0.15, a odpowiednim testem statystycznym możemy sprawdzić, czy jest to wielkość istotna. Jeśli zmiana okaże się istotna, można powiedzieć, że dodanie nowego predyktora doprowadziło do poprawy modelu. Nieistotna zmiana R2 oznaczać może, że dodatkowy predyktor nie poprawia modelu w sposób znaczący. Jak jednak opisywałem w poprzednim odcinku, nie zawsze będzie to dobra metoda konstruowania modelu optymalnego, może bowiem prowadzić do modeli przesadnie rozbudowanych lub nadmiernie dopasowanych. W przypadku poszukiwania optymalnego zestawu zmiennych lepiej posługiwać się innymi metodami (to jednak temat na cały oddzielny odcinek). Nie oznacza to oczywiście, że ΔR2 jest miarą mało przydatną – w pewnych sytuacjach pozwala np. ocenić, jak duży wkład w wyjaśnioną wariancję ma zmienna, którą różnią się oba porównywane modele
Zanim do indywidualnych zmiennych przejdziemy, wróćmy jeszcze na chwilę do bogatej rodziny modeli regresji. Poza klasycznym modelem opartym na metodzie najmniejszych kwadratów, mamy wszak (wyliczając, dość wybiórczo, tylko niektóre z nich) regresję logistyczną, w której próbujemy przewidzieć prawdopodobieństwo zaistnienia lub niezaistnienia jakiegoś zdarzenia. Mamy modele mieszane, w których wariancja rozbita jest na różne poziomy (np. oddzielnie rozpatrujemy międzyosobową wariancję wyników, a oddzielnie wariancję wyników między państwami, z których te osoby pochodzą). Mamy regresję nieliniową, w której równanie regresji tworzone jest w sposób bardziej złożony niż zwykła suma poszczególnych predyktorów, albo np. regresję kwantylową, w której przewidujemy nie średnią, ale medianę lub dowolny inny kwantyl (np. piąty centyl) rozkładu wyników. Wiele z tych podejść ma specyficzne dla siebie sposoby szacowania parametrów modelu i nie pozwala na zastosowanie R2 w takim rozumieniu, jakie stosowaliśmy do tej pory, nie ma w nich bowiem prostej wariancji resztowej i całkowitej, które można by ze sobą porównać. Klasyczne R2 można jednak zdefiniować na kilka alternatywnych sposobów [Odcinek 8] (właśnie jako stosunek zmienności wyjaśnionej do całkowitej, ale też jako poprawę modelu w stosunku do modelu zerowego albo jako kwadrat korelacji wartości przewidywanych i obserwowanych), i w „nieklasycznych” modelach regresji różni autorzy próbują tworzyć miary, które spełniałyby przynajmniej jedną z takich definicji. Takie wariacje na temat współczynnika R2 noszą często miano tzw. pseudo R2, a ich interpretacja musi być dość ostrożna.
Na przykład, dla regresji logistycznej program SPSS podaje trzy różne rodzaje współczynników pseudo R2 (Cox & Snell; Nagelkerke; McFadden), z których każdy spełnia drugą definicję (poprawa modelu w stosunku do modelu zerowego), tylko jeden (McFadden) może być interpretowany w kategoriach proporcji wariancji wyjaśnionej do całkowitej, żaden zaś nie odzwierciedla korelacji między wynikiem przewidywanym a obserwowanym. Co więcej, niektóre z nich, ze względu na wzory stojące u ich podstawy, nie mają pełnego zakresu od 0 do 1 i nawet w idealnym modelu regresji ich wartość zawsze będzie mniejsza od jedności.
Z kolei w liniowych modelach mieszanych, w których wariancja rozdzielona jest na poszczególne poziomy (np. poziom osób i grup społecznych, albo – analogicznie jak w analizie wariancji z powtarzanym pomiarem – poziom wewnątrz- i międzyosobowy), dla każdego z nich oddzielnie możemy próbować wyliczyć ΔR2 w stosunku do modelu bazowego, przy czym modelem bazowym nie zawsze będzie model zerowy (tj. pozbawiony predyktorów). Nie ma jednak zgodności między specjalistami od modeli mieszanych, w jaki sposób w bardziej złożonych modelach takie ΔR2 powinno być wyliczane.
Osoby zainteresowane zgłębianiem niuansów statystycznych miar pseudo R2 i podobnych odsyłam jednak do literatury fachowej, my natomiast powróćmy na grunt klasycznego, liniowego modelu regresji.
Jak wspomniałem, ΔR2 może być czasem przydatna w ocenie wkładu poszczególnych predyktorów w równanie regresji. Dzieje się tak w przypadku, w którym zmienne wyjaśniające (predyktory) są ortogonalne, tj. nie korelują ze sobą. Wyobraźmy sobie na przykład zupełnie absurdalne badanie, w którym udało nam się wykazać, że możemy przewidzieć poziom inteligencji na podstawie wzrostu i koloru oczu, przy czym wzrost i kolor oczu są cechami zupełnie ze sobą nieskorelowanymi. R2 dla takiego modelu wynosiło 0.8 (a miary skorygowane, odpowiednio, R2adj=0.799; R2pred=0.796, nie będziemy się więc nimi zajmować, bo nie odbiegają znacząco od wartości R2). Możemy jednak stworzyć też model prostszy, w którym uwzględniliśmy jedynie wzrost, i okazało się, że R2 dla takiego modelu wynosi 0.16. Porównując oba modele widzimy, że po dodaniu zmiennej kolor oczu R2 wzrosło z 0.16 do 0.8, czyli ΔR2 dla koloru oczu wynosiło 0.64. Od razu widać, która zmienna ma większy wkład w całkowitą wyjaśnioną wariancję mierzonego przez nas poziomu inteligencji.
Możemy to dodatkowo potwierdzić, odwracając sytuację. Szacując model, w którym jedynym predyktorem jest kolor oczu, otrzymujemy R2=0.64. Wiemy już, że po dodaniu wzrostu do równania regresji wzrośnie on do 0.8, co oznacza, że ΔR2 dla zmiennej wzrost wynosi 0.16. Można to wszystko podsumować następująco: w sytuacji, w której dodajemy do równania regresji zmienną ortogonalną do pozostałych predyktorów, ΔR2 dla takiego modelu jest równoznaczna z indywidualnym wkładem tej nowej zmiennej w wyjaśnianą wariancję i równocześnie z wartością R2 dla modelu, w którym ta nowa zmienna byłaby jedynym predyktorem. Problem jest tylko taki, że w badaniach obserwacyjnych, do których w psychologii najczęściej stosowany jest model regresji, całkowicie ortogonalne zmienne są niewiele częstsze niż jednorożce. A w przypadku wzajemnych korelacji między predyktorami, cały powyższy dowód traci na wartości.
Prosta modyfikacja powyższego przykładu i wprowadzenie korelacji równej 0.4 między naszymi predyktorami (przy zachowaniu identycznych związków ze zmienną przewidywaną) sprawia, że sytuacja ulega diametralnej zmianie. R2 dla modelu ze zmienną wzrost ponownie wynosi 0.16, a R2 dla modelu ze zmienną kolor oczu wynosi 0.64. Jednak, po stworzeniu modelu pełnego (uwzględniającego wzrost i kolor oczu) R2 dla takiego modelu wynosi… 0.65!. Jak łatwo policzyć, ΔR2 dla koloru oczu wynosi więc tylko 0.49, ale, co gorsza, ΔR2 dla wzrostu to zaledwie 0.01. Wciąż widzimy, która zmienna wydaje się być „ważniejsza” w przewidywaniu mierzonego przez nas poziomu inteligencji, ale poza tym mamy lekki zamęt w głowie. Wartości R2 dla poszczególnych predyktorów nie sumują się do R2 dla całego modelu. Wartości ΔR2 dla poszczególnych predyktorów też nie sumują się do R2 dla całego modelu. Ba, wzrost, pojawiając się w modelu jako pierwszy, wydawał się może umiarkowanie ważną, ale jednak powiązaną z przewidywanym poziomem inteligencji zmienną (R2=0.16). Ten sam wzrost, włączany do modelu w drugiej kolejności, jawi się jako predyktor zupełnie nieprzydatny (ΔR2 =0.01)… Na pierwszy rzut oka więc, w przypadku skorelowanych predyktorów, ocena ich realnego znaczenia za pomocą zwykłej wartości R2 wydaje się bardzo trudna, jeśli nie niemożliwa. Dlaczego tak się dzieje, i czy można coś na to zaradzić – tym właśnie zajmiemy się w kolejnym odcinku.
dr Piotr Zieliński
Wojskowy Instytut Medycyny Lotniczej