Odcinek 7. Świat nie kończy się na r Pearsona, czyli (wybiórczy) przegląd miar siły związku

W ostatnich odcinkach działu statystycznego opisywałem miary wielkości efektu pokazujące, jak duża część zmienności wyników jest wyjaśniana przez kontrolowane zmienne. W tym celu powoływałem się na rpb2, eta2 i inne analogiczne współczynniki. Podstawą do ich wyliczania są współczynniki pochodzące z ogólniejszej kategorii, a mianowicie miary siły związku (w podanych przykładach były to rpb, czyli korelacja punktowo-dwuseryjna, oraz eta, czyli współczynnik związku nieliniowego). Są one jednymi z podstawowych miar pokazujących, jak silna jest relacja między zmiennymi, dlatego warto przyjrzeć się bliżej ich rodzajom i interpretacji.

Najbardziej znaną i popularną miarą siły związku jest oczywiście współczynnik korelacji Pearsona. Osoby pamiętające co nieco z wykładów ze statystyki powinny kojarzyć też, często opisywany w literaturze, współczynnik korelacji rangowej rs Spearmana (tzw. rho), choć prawdopodobnie nie wszyscy potrafią trafnie opisać różnicę pomiędzy r i rs. Nie wszyscy też zdają sobie sprawę, że popularne R2 podawane przy analizie regresji to kwadrat z tzw. współczynnika korelacji wielokrotnej (R). Miary te nie wyczerpują jednak bogatego repertuaru współczynników opisujących związek dwóch lub większej liczby zmiennych. W artykułach naukowych coraz częściej pojawiają się współczynniki, o których przeciętny psycholog ma bardzo znikome pojęcie, z tego względu w niniejszym odcinku postaram się zaprezentować przegląd podstawowych i względnie popularnych miar, jakie można spotkać we współcześnie publikowanej literaturze.

Dla uproszczenia przyjrzymy się wyłącznie współczynnikom opisującym związek dwóch zmiennych. Mając więc zmienne X i Y, pierwsze, co musimy zrobić, to określić skalę pomiarową, na której wyrażona jest każda z nich. Będzie to podstawą naszej klasyfikacji. W najbardziej znanym przypadku obie zmienne mogą mieć charakter ilościowy, tj. pomiar każdej z nich pozwala na określenie, jak duże są różnice między wynikami poszczególnych osób (do miar takich można na pewno zaliczyć np. wiek wyrażony w latach, wzrost w centymetrach, czas reakcji w sekundach; zazwyczaj zalicza się do nich też liczbowe wyniki testów psychologicznych, choć z reguły oznacza to przyjęcie pewnych dodatkowych założeń dotyczących ich natury). W tej sytuacji podstawowym wyborem jest znany współczynnik r Pearsona, choć trzeba pamiętać, że współczynnik ten opisuje jedynie tzw. związek prostoliniowy. Oznacza to, że zakładamy, iż niezależnie od poziomu zmiennej X, jej wzrost wiąże się z taką samą zmianą zmiennej Y. Współczynnik ten (jak większość miar siły związku) przyjmuje wartości od -1 do 1, gdzie 0 oznacza brak związku, 1 oznacza idealny związek dodatni (gdzie wzrost wartości X oznacza równoczesny wzrost wartości Y) a -1 idealny związek ujemny (wzrost wartości X oznacza równoczesny spadek wartości Y). Jeśli jednak zależność ta nie jest prostoliniowa (np. przy niskich wartościach X poziom Y rośnie powoli, a przy wysokich wartościach X rośnie bardzo gwałtownie albo zaczyna spadać), wielkość r nie odda w pełni tej relacji i zaniży faktyczną siłę związku analizowanych zmiennych.

Trzeba też pamiętać, że skala współczynnika r nie jest skalą stosunkową, co oznacza, że nie można powiedzieć, że np. r = 0.6 to korelacja dwa razy większa niż r = 0.3. Jednak wartość r podniesiona do kwadratu (r2) może być interpretowana jako procent zmienności jednej zmiennej „wyjaśniany” przez drugą zmienną, i tu faktycznie r2 = 0.4 to dwa razy więcej niż r2 = 0.2. Interpretacja oparta na r2 jest zresztą bardziej intuicyjna, gdyż trzeba zwrócić uwagę, że „goły” współczynnik r nie rośnie równomiernie. Wzrost o jedną dziesiątą z r = 0.2 do r = 0.3 oznacza dodatkowe 5% wyjaśnionej wariancji, podczas gdy wzrost z r = 0.8 do r = 0.9 oznacza aż 17% więcej wyjaśnionej wariancji.

Jeżeli jedna lub obie ze zmiennych X i Y nie mają charakteru ilościowego i mogą być wyrażone jedynie na skali porządkowej (tj. wiemy, który z wyników jest wyższy, a który niższy, ale trudno nam ocenić wielkość tych różnic), właściwym rozwiązaniem są tzw. współczynniki korelacji rangowej. Do najbardziej znanych zaliczyć można rs Spearmana oraz tau Kendalla. Oba, podobnie jak r Pearsona, przyjmują wartości od -1 do 1, i pokazują, czy między zmiennymi istnieje tzw. związek monotoniczny (czyli np. przy korelacji dodatniej, wraz ze wzrostem X następuje wzrost Y, choć wielkość tego wzrostu może być różna przy różnych poziomach wyników). Ze względu na to, że nie zakładają one prostoliniowego związku, czasem stosuje się je także dla zmiennych ilościowych, w których r Pearsona, ze względu na brak prostoliniowej relacji, jest nieadekwatne.

Współczynnik Spearmana zwykle przyjmuje wartości wyższe od współczynnika Kendalla, i prawdopodobnie dlatego jest preferowany przez wielu badaczy. Jest to jednak dość złudne, a specjaliści konsekwentnie wskazują tau jako lepszą i bardziej stabilną miarę związku dla zmiennych porządkowych. Niższe wartości wynikają z tego, że mimo ogólnego podobieństwa, interpretacja rs i tau jest po prostu inna. Współczynnik Spearmana jest tak naprawdę współczynnikiem Pearsona zastosowanym dla porangowanych wyników (tj. wyników, które ustawiono w kolejności od najmniejszego do najwyższego i poprzydzielano im kolejne wartości liczbowe). Dyskusyjne jest jednak podnoszenie jego wartości do kwadratu i interpretowanie w kategoriach procentu wyjaśnionej wariancji, gdyż wariancja jest pojęciem związanym z pomiarem ilościowym. Z kolei tau Kednalla opiera się na proporcji zgodnych i niezgodnych par wyników, gdzie przez zgodność rozumiemy, że jeśli np. u jednej osoby wartość rangi dla X jest wyższa niż u drugiej osoby (czyli X1 > X2), to w obrębie zmiennej Y zachodzi identyczna relacja (tj. Y1 > Y2). Przekształcając tau Kendalla na różne sposoby, można np. wyliczyć (wzorem „(1 + tau)/(1 – tau)”), jakie jest prawdopodobieństwo, że wyniki dwóch losowych osób wykażą się taką zgodnością.

W przypadku, gdy jedna zmienna ma charakter zmiennej nominalnej (tj. przyjmuje różne kategorie, które nie dają się uporządkować w żaden sensowny sposób, np. kolor oczu), a druga ma charakter zmiennej ilościowej, właściwymi miarami są znane nam już korelacja punktowo-dwuseryjna rpb (w przypadku, gdy zmienna nominalna jest dwuwartościowa) lub eta (w przypadku wielowartościowych zmiennych nominalnych). Były one (a raczej ich kwadraty) już omawiane we wcześniejszych Biuletynach, w tym miejscu warto jedynie dodać, że eta (przyjmująca wartości od 0 do 1) opisuje siłę związku nieliniowego, bez określania kierunku. Jedna ze zmiennych jest przecież kategorialna, nie ma więc znaczenia kolejność, w jakiej są prezentowane jej poszczególne wartości (oczy niebieskie, czarne, zielone itp.) i nie jest to uwzględnione w tym współczynniku (inaczej niż w rpb, który, bazując na współczynniku korelacji Pearsona, może przyjmować wartości od -1 do 1).

Jeżeli obie zmienne mają charakter nominalny, ich wzajemna relacja jest zobrazowana w tzw. tabeli kontyngencji, w której wierszach i kolumnach krzyżują się poszczególne wartości tych zmiennych. Dzięki temu widać, ile osób badanych równocześnie ma np. niebieskie oczy i jest kobietą. Analizując poszczególne kratki takiej tabeli można stwierdzić, czy badane zmienne są ze sobą powiązane, czyli, czy przynależność do jednej z kategorii zmiennej X ma związek z przynależnością do jakiejś kategorii zmiennej Y. Siłę tego związku najczęściej określa się za pomocą tzw. współczynników kontyngencji takich jak φ (fi) oraz V Cramera. Współczynnik  φ nadaje się wyłącznie do oceny związku zmiennych dwuwartościowych (np. kobieta/mężczyzna i prawo/leworęczni). Jeżeli każdą ze zmiennych zakodujemy zero-jedynkowo, będzie on odpowiadał współczynnikowi r Pearsona (dlatego czasem jest oznaczany rφ) i przyjmował wartości z zakresu od -1 do 1. Interpretacja musi być jednak ostrożna, gdyż jego górna granica jest uzależniona od tego, na ile równe są proporcje badanych przypadających na każdą kategorię (i np. dla grupy badanych, w której było 50 kobiet i 50 mężczyzn, a równocześnie tylko 20 leworęcznych i aż 80 praworęcznych osób, maksymalna wartość φ wynosi jedynie 0.65). Współczynnik V Cramera jest rozszerzeniem współczynnika φ dla zmiennych o większej liczbie kategorii (i z tego względu zwany jest czasem φ Cramera, φC). Przyjmuje wartości od 0 do 1, gdzie 1 oznacza związek idealny. W jego wypadku pamiętać jednak należy, że wartość V jest uzależniona od wielkości analizowanej tabeli, więc nie nadaje się on do bezpośredniego porównywania siły efektu wyliczonej dla tabel o innej liczbie wierszy lub kolumn.

W przypadku tabel kontyngencji inną możliwością są współczynniki określające proporcjonalną redukcję błędu (tzw. PRE). Pokazują one, jak bardzo znajomość jednej zmiennej (niezależnej) pomaga przewidzieć wartość drugiej zmiennej (zależnej). Z tego względu mają one charakter niesymetryczny, tj. mogą przyjmować inną wartość, gdy przewidujemy X na podstawie Y, a inną, gdy przewidujemy Y na podstawie X. Do najbardziej znanych należą λ (lambda) oraz tau Goodmana i Kruskala. Oba wymagają określenia, która ze zmiennych ma charakter zmiennej niezależnej, oba mają zakres od 0 do 1, a ich wartość pomnożona przez 100 oznacza procentową redukcję błędu. Oba mają jednak tendencję do zaniżania prawdziwej siły związku.

Poza opisanymi wyżej miarami, w literaturze można znaleźć wiele innych miar różnego typu, jak np. Q Yule’a, gamma Goodmana i Kruskala, współczynnik kontyngencji C Pearsona czy współczynnik D Somersa, stosowane dla danych porządkowych lub nominalnych. Nie mają one jednak znaczącej przewagi w stosunku do tych opisanych wyżej. W analizie związku zmiennej nominalnej z porządkową też najczęściej stosuje się współczynniki oparte na analizie tabeli kontyngencji – mniej popularną alternatywą jest zastosowanie korelacji rangowo-dwuseryjnej. Poniżej znajduje się zestawienie podstawowych miar siły związku podzielonych ze względu na skale pomiarowe badanych zmiennych.

Statystykaipsychometria_Tekst_07_Ryc1

Na koniec warto jeszcze dodać, że w badaniach, w których mamy do czynienia z redukcją danych i w których zmienną ilościową (np. wiek) zamieniamy na zmienną porządkową (dzieci, dorośli, emeryci) lub wręcz dwuwartościową (osoby powyżej lub poniżej 40 roku życia), można zastosować specjalne miary siły związku, w których próbujemy oszacować wartość korelacji jaką moglibyśmy uzyskać, gdyby zmienna wciąż miała charakter ilościowy. Na przykład, dla związku zmiennej ilościowej (np. czas reakcji) ze zmienną ilościową, która została zdychotomizowana (np. wiek: młodsi/starsi) będzie to tzw. korelacja dwuseryjna. Różni się ona od korelacji punktowo-dwuseryjnej tym, że rpb szacuje związek zmiennej ilościowej z przynależnością do jednej z dwóch grup, podczas gdy korelacja dwuseryjna szacuje, jaka mogłaby być korelacja zmiennej ilościowej z wiekiem, gdyby dla każdej osoby był on dokładnie określony (np. w latach). Tego typu współczynniki są coraz popularniejsze we współczesnej literaturze, choć do niektórych ich wariantów (np. korelacja polichoryczna, szacująca związek dwóch zmiennych ciągłych, obu „uproszczonych” do skal porządkowych) wymagana jest spora moc obliczeniowa. Poniższa tabela podsumowuje poszczególne współczynniki tego typu.

Statystykaipsychometria_Tekst_07_Ryc2

dr Piotr Zieliński

Wojskowy Instytut Medycyny Lotniczej