Odcinek 9. O korygowaniu R2 słów kilka, czyli: jak rozpoznać dobry model regresji

W ostatniej edycji Biuletynu [Odcinek 8] zajęliśmy się podstawową miarą wielkości efektu, jaka jest brana pod uwagę w modelach regresji liniowej, czyli współczynnikiem determinacji R2. Pokazałem, że miara ta może być rozumiana na kilka sposobów, a pierwszy z nich, tj. traktowanie R2 jako proporcji zmienności wyjaśnionej do zmienności całkowitej, zbliża tę miarę do wskaźnika eta2, którym zajmowaliśmy się w jednym z wcześniejszych odcinków [Odcinek 5]. Napisałem też, że – podobnie jak eta2 – miara ta jest obciążona, tj. jej obliczanie w oparciu o dostępną nam próbę wyników zawyża w pewnym stopniu populacyjną wielkość mierzonego efektu. Czas zająć się tym problemem nieco bardziej szczegółowo.

 

Współczynnik R2 często jest traktowany jako miara jakości modelu regresji. Jego wartość pokazuje bowiem, jak dobrze predyktory (zmienne wyjaśniające), które wprowadziliśmy do modelu, pozwalają nam przewidywać poziom interesującej nas zmiennej w badanej przez nas grupie. Logiczne wydaje się więc, że trafne przewidywania (a więc wysokie R2) oznaczają model dobry, zaś niska wartość R2 oznacza, że nasze równanie regresji nie sprawdza się najlepiej… w takim sposobie myślenia kryją się jednak dość istotne pułapki.

 

Po pierwsze, jak wielokrotnie już pisałem na łamach naszego cyklu, ocena wielkości efektu jest relatywna i ściśle uzależniona od kontekstu badawczego. Są sytuacje, w których wszystkie modele z R2 poniżej, powiedzmy, wartości 0.5 uznamy za słabe – jeśli na przykład chcemy przewidywać, która z osób w badanej przez nas grupie będzie uzyskiwała najlepsze wyniki na stanowisku zawodowym, o które się ubiega, to model regresji z R2=0.2 można śmiało uznać za mało przydatny – około 80% zróżnicowania w wynikach zawodowych jest wszak związane z czynnikami, których nie byliśmy w stanie w naszym modelu kontrolować. Decyzje rekrutacyjne oparte na takim modelu mogą być więc zupełnie chybione. Z drugiej jednak strony, jeśli prowadząc badania naukowe uda nam się wykazać jakiś nieoczywisty związek – np. nasilenia objawów choroby somatycznej z jakąś cechą osobowości – to nawet model z R2=0.1 możemy uznać za ciekawy. Oczywistym jest, że nasilenie objawów zależy od wielu, wielu innych czynników – stopnia zaawansowania choroby, zastosowanego leczenia itp. Nikt temu nie zaprzecza. Ale jeśli poza tym jesteśmy w stanie pokazać, że, niezależnie od tych czynników, cechy psychologiczne też w pewnym stopniu (choćby tylko w dziesięciu procentach!) tłumaczą nam zróżnicowanie objawów między pacjentami, to nawet przy „słabym” modelu wynik taki można uznać za znaczący teoretycznie. Innymi słowy, nie da się w sposób uniwersalny i oderwany od sytuacji określić, jakie wartości R2 są dobre, a jakie są niesatysfakcjonujące.

 

Po drugie, ze względu na to, w jaki sposób szacowany jest model regresji, każda zmienna wyjaśniająca jaką uwzględnimy w analizie może albo poprawić nasze przewidywania (tj. zmniejszyć reszty, czyli rozbieżności między wynikiem przewidywanym a obserwowanym), albo po prostu okazać się nieznacząca. Nie ma natomiast możliwości, by wprowadzenie dodatkowej zmiennej pogorszyło trafność naszych oszacowań, tj. spowodowało spadek R2. Na przykład, chcemy przewidywać wynik w teście inteligencji na podstawie wieku. Uzyskujemy model z R2 wynoszącym 0.3. Następnie dodajemy zmienną płeć. Wielkość R2 w modelu z wiekiem i płcią może być taka sama lub wyższa niż w modelu, w którym wiek był jedynym predyktorem. Ale nie ograniczajmy się – dodajmy miejsce zamieszkania (duże/małe miasto/wieś), dodajmy poziom neurotyzmu, ba, dodajmy kolor oczu albo rozmiar buta! Każda z tych zmiennych, wprowadzona do modelu, w najgorszym wypadku nie zmieni jakości naszych przewidywań, w większości wypadków jednak doprowadzi do (znaczącego lub nie) wzrostu wartości R2 powyżej początkowej wartości 0.3. Co więcej, ten wzrost nie zawsze będzie trafnie odzwierciedlał zależności populacyjne, w pewnym momencie bowiem kolejne zmienne nie będą modelować zależności ogólnych, tylko czysto przypadkowe, losowe zależności pojawiające się w naszej próbie (np. przez dziwne zrządzenie losu, u przebadanych przez nas 20 osób naprawdę może pojawić się korelacja między wynikiem testu inteligencji a rozmiarem buta, która to korelacja w populacji prawdopodobnie nie występuje). W tej sytuacji traktowanie R2 jako wyznacznika „jakości” modelu staje się bardzo złudne, gdyż bardziej rozbudowany model, nawet z absurdalnymi zmiennymi, zawsze będzie jawił się jako lepszy od modelu prostszego.

 

Skoro jednak udało nam się zidentyfikować ten problem, możemy szukać jego rozwiązania. W przypadku analizy regresji, standardową procedurą we wszystkich popularnych programach statystycznych jest, poza podawaniem wielkości R2, podawanie tzw. skorygowanego R2 (adjusted R2; R2adj). Skorygowane R2 to współczynnik, w którym wartość R2 została zmodyfikowana ze względu na liczbę zmiennych (predyktorów), jakie są uwzględnione w modelu regresji. Z tego powodu R2 i R2adj w modelu z jednym predyktorem przyjmują zwykle wartość tożsamą, a wraz ze zwiększaniem liczby zmiennych, korekta R2 jest coraz bardziej odczuwalna. W efekcie, jeżeli rozbudowujemy model o dodatkową zmienną, to R2adj wzrośnie tylko wtedy, gdy zmienna ta tłumaczy znaczącą część zróżnicowania wyników. Dodając zmienną, która nic nie wnosi do istniejącego modelu, spowodujemy spadek wartości R2adj (bo wariancja wyjaśniona nie wzrasta, a „siła” korekty jest większa). Teoretycznie, R2adj interpretujemy tak samo jak zwykłe wartości R2, współczynnik ten nie zachowuje jednak wszystkich cech klasycznego współczynnika determinacji – np. R2adj może przyjmować wartości ujemne w sytuacji, gdy predyktory nie tłumaczą zbyt wiele, a jest ich równocześnie w modelu dość dużo.

Stosowanie R2adj zamiast zwykłego R2 pozwala nam na wybór modelu najbardziej „ekonomicznego”, tj. takiego, który wyjaśnia maksymalnie dużo, nie będąc równocześnie w sposób sztuczny modelem nadmiernie rozbudowanym. Generalnie więc to właśnie wartościami R2adj powinniśmy posługiwać się, gdy chcemy ocenić, jak silnie zestaw zmiennych, które uwzględniliśmy w badaniu, jest związany z wartościami, które chcemy przewidywać. Duża rozbieżność między R2 i R2adj sugeruje, że w modelu jest zbyt dużo zmiennych nieistotnych z punktu widzenia przewidywanego wyniku. Mała rozbieżność R2 i R2adj i przyzwoity – z zastrzeżeniem „po pierwsze”, tj. faktu, że ocena wielkości R2 zawsze jest relatywna – poziom R2adj sugeruje, że zmienne, które wybraliśmy do naszego modelu regresji, pozwalają dość skutecznie przewidywać wyniki zbliżone do wyników faktycznie uzyskanych przez osoby badane.

 

Współczynnik R2adj nie jest jednak idealnym panaceum, jeśli chodzi o trafną ocenę jakości modelu. Pozwala on na wybór takiego równania regresji, które najlepiej sprawdza się w modelowaniu uzyskanych przez nas wyników, może jednak – podobnie jak R2 – prowadzić do efektu tzw. nadmiernego dopasowania. Pamiętajmy bowiem, że naszym celem jest model, który trafnie odzwierciedla zależności populacyjne, szacujemy go jednak jedynie w oparciu o wyniki przebadanej przez nas grupy. A w grupie takiej – szczególnie, gdy jest ona niewielka – mogą pojawić się zależności całkowicie losowe, i z bliżej nieodgadnionych przyczyn, zupełnie przypadkiem, kilka osób o mniejszym numerze buta faktycznie może mieć znacząco wyższe wyniki w teście inteligencji od kilku osób o większym rozmiarze noszonego obuwia, co w mało licznej grupie będzie sugerowało ujemną korelację między tymi zmiennymi. Uwzględnienie tego związku w naszym modelu doprowadzi z pewnością do przyzwoitych wartości R2, jednak będzie oddalać nas, a nie przybliżać, od prawdziwych zależności na poziomie populacji.

Model nadmiernie dopasowany będzie więc bardzo dobrze przewidywał wyniki w posiadanym przez nas zbiorze danych – łącznie z ich przypadkowymi i losowymi powiązaniami – zawiedzie nas jednak, gdy na podstawie takiego modelu będziemy chcieli przewidywać nowe wartości, czyli wyniki osób, które nie znalazły się w analizowanej przez nas grupie. Korekta zastosowana w R2adj nie daje nam niestety jasnej odpowiedzi, czy właśnie z taką sytuacją możemy mieć do czynienia. Z tego względu w ostatnich latach popularna (choć niezbyt często obliczana „z automatu” w popularnych pakietach statystycznych) robi się jeszcze inna miara, a mianowicie przewidywane R2 (predicted / predictive R2; R2pred). Procedura obliczania tego współczynnika opiera się na statystyce PRESS (predicted residual sum of squares) i z grubsza polega na tym, że z naszego zbioru danych wyrzucamy jedną osobę, szacujemy model regresji oparty na tym pomniejszonym zbiorze i sprawdzamy, jak dobrze ten model przewiduje wynik pominiętej na początku osoby. Dzięki temu możemy wyliczyć różnicę między obserwowanym wynikiem naszej osoby a przewidywaniem, jakie poczyniliśmy w oparciu o niezależny do niej zbiór danych. Potem przywracamy tę osobę, za to wyrzucamy następną, i tak powtarzamy całą procedurę kolejno dla wszystkich osób z naszego zbioru. Dzięki temu otrzymujemy zbiór różnic między wartościami obserwowanymi a przewidywanymi (w specyficzny sposób), i w oparciu o te wartości wyliczamy współczynnik R2pred. Miara ta, podobnie jak R2adj, nie musi mieścić się w granicach od 0 do 1 i może przyjmować wartości ujemne. Interpretujemy ją jako współczynnik, który pokazuje nam, jak dobrze nasz model sprawdza się w przewidywaniu wartości interesującej nas zmiennej u nowych, nie uwzględnianych do tej pory osób (a więc pokazuje też, jak dobrze nasz model ma szansę uogólniać się na populację). Z reguły hierarchia wielkości trzech opisanych przeze mnie współczynników jest następująca: R2 > R2adj > R2pred, więc nie powinniśmy być zaskoczeni, że wartości R2pred są relatywnie mniejsze i mogą wydawać się słabym powodem do dumy. Jednak – co przypominam po raz kolejny – ich ocena powinna być uzależniona od kontekstu badawczego. Ważne jest natomiast, jak duże są rozbieżności między tym współczynnikiem a pozostałymi miarami R2. Tak, jak R2adj znacząco mniejszy do R2 sugerował model nadmiernie rozbudowany niepotrzebnymi zmiennymi, tak znaczący spadek R2pred w stosunku do pozostałych miar sugeruje, że mamy do czynienia z modelem nadmiernie dopasowanym, który dobrze odzwierciedla zależności specyficzne dla naszej próby, nie sprawdza się jednak w przypadku przewidywania wyników u nowych osób.

Czy to źle, czy może nie powinniśmy się znacznym obniżeniem R2pred za bardzo martwić, znowu jest nieco zależne od kontekstu. Jeśli nasza grupa to mała, specyficzna podpopulacja (np. chorych na bardzo rzadką chorobę somatyczną), to uzyskany model – nawet, jeśli jest specyficzny dla badanej grupy – i tak może być dla nas cenny pod względem naukowym, choć powinniśmy pamiętać, że poszerzenie naszej grupy badanych o kolejne osoby można znacząco wpłynąć na jego ostateczny kształt. Jeśli jednak na podstawie naszego modelu chcemy podejmować decyzje w przyszłości – np. stosując go do przewidywania wyników zawodowych w grupie kandydatów ubiegających się o jakieś stanowisko – to niska moc predykcyjna takiego modelu daje podstawy do kwestionowania jego przydatności w takiej sytuacji. Z tego względu, dla kompletnej oceny dopasowania modelu regresji, najlepiej przyglądać się równocześnie wszystkim trzem opisanym wyżej współczynnikom i rozważać je w indywidualnym kontekście prowadzonych przez nas analiz.

 

dr Piotr Zieliński

Wojskowy Instytut Medycyny Lotniczej