dr Piotr Zieliński, psycholog, absolwent Wydziału Psychologii Uniwersytetu Warszawskiego
Od 2008 roku pracuję jako adiunkt w Wojskowym Instytucie Medycyny Lotniczej, gdzie na co dzień zajmuję się orzecznictwem psychologicznym, zarówno wojskowym, jak i cywilnym. Najbardziej jednak interesują mnie zagadnienia z zakresu metodologii, statystyki i psychometrii, czyli „warsztat”, na którym badania psychologiczne opierają swoją wiarygodność. Moje zainteresowania realizuję jako naukowiec i jako dydaktyk, od 2015 roku jestem też konsultantem statystycznym w Pracowni Testów Psychologicznych PTP. Od lat moim podstawowym narzędziem pracy jest środowisko statystyczne R, którym posługiwałem się, zanim jeszcze było to modne. W Biuletynie postaram się w prosty sposób przybliżyć Państwu aktualne trendy i standardy dotyczące wykorzystywania statystyki i psychometrii w badaniach psychologicznych. Zapraszam do lektury.
Przeglądając różnorodne artykuły psychologiczne, w których autorzy starają się zaprezentować czytelnikowi wyniki swych badań, dostrzeżemy zapewne ogromną różnicę między artykułami publikowanymi na początku czy w połowie XX wieku a tekstami publikowanymi współcześnie. Ograniczając się jedynie do części „rzemieślniczej” związanej z przetwarzaniem i analizą danych, widać wyraźnie, że w analizie wyników stosowane są coraz bardziej wyrafinowane metody statystyczne. Często zresztą są to metody dość stare i opisywane przez teoretyków już kilkadziesiąt lat wcześniej, ale dopiero powszechny dostęp do komputerów i do ogromnej – w porównaniu z ubiegłymi dekadami – mocy obliczeniowej sprawia, że stają się one dostępne we współczesnej praktyce badawczej. Paradoksalnie jednak nie tu należy doszukiwać się największej zmiany – wciąż popularne przecież są metody proste, których opracowanie sięga początków ubiegłego stulecia (np. test t Studenta, por. Student, 1908).
Najbardziej znacząca zmiana dotyczy bowiem świadomości statystycznej badaczy – coraz lepiej poznawane są możliwości i ograniczenia zarówno starych, jak i nowych metod, co z kolei sprawia, że na podstawie podobnych jak przed laty wyników skłonni jesteśmy wysnuwać odmienne (pełniejsze, a zarazem ostrożniejsze) wnioski. Na przykład, powszechnym i nie budzącym dziś zdziwienia wymogiem w dobrych czasopismach naukowych stało się – poza określaniem istotności statystycznej – podawanie jakiejś miary wielkości efektu (jeszcze trzydzieści lat temu nie była to wcale rzecz oczywista). Rekomendowanym, choć wciąż rzadko realizowanym uzupełnieniem jest też podawanie przedziałów ufności dla testowanych związków. Coraz większy nacisk przy planowaniu badań jest kładziony na kontrolę nie tylko tzw. błędu pierwszego rodzaju (tj. nieuzasadnionego odrzucenia hipotezy zerowej i stwierdzenia zależności, której realnie nie ma), ale też na określanie mocy testu, co pozwala ocenić, jakie jest ryzyko błędu związanego z niewykryciem zależności, która realnie istnieje. Coraz częściej powraca też dyskusja, czy utrwalony od lat paradygmat testowania hipotezy zerowej (i tradycyjnego, a przecież arbitralnego kryterium p<0,05) jest w ogóle właściwy, czy też może bardziej „naturalne”, bliższe rzeczywistości są inne metody wnioskowania statystycznego.
W obliczu tych zmian i coraz powszechniejszych nowych trendów przeciętny psycholog (humanista?) wychowany na „klasycznej” statystce z okresu studiów może poczuć się zagubiony. Staje też przed wyborem – trwać dalej w swym zagubieniu lub poświęcić wiele czasu i energii na zgłębianie współczesnej literatury statystycznej. Dostępne na rynku polskim podręczniki w większości dzielą się jednak albo na bardzo podstawowe, nie wychodzące poza klasyczne metody statystyczne, albo bardzo zaawansowane, których zrozumienie bez podstaw algebry macierzowej i samozaparcia w analizowaniu niezliczonych wzorów staje się po prostu niemożliwe. Celem niniejszego działu jest wyjście naprzeciw takim właśnie „nieco zagubionym” osobom, i przybliżenie im w syntetyczny, prosty (ale nie banalizujący) sposób współczesnych terminów i rekomendacji statystycznych i psychometrycznych. Warstwa techniczna i matematyczna z założenia będzie sprowadzona do niezbędnego minimum, a główny nacisk położony będzie na pokazanie sensu i zastosowań różnych metod, współczynników czy analiz, które coraz częściej możemy napotkać we współczesnej literaturze.
Na początek warto przyjrzeć się podstawowym zmianom, jakie zaszły w rozumieniu tego, czym jest istotność uzyskiwanych wyników. O ile w bardzo starych badaniach z zakresu psychologii prezentacja wyników opierała się głównie na opisie statystycznym (np. grupa A uzyskała 20%, a grupa B – 35% poprawnych odpowiedzi), już w pierwszej połowie XX wieku, po słynnej publikacji Ronalda Fishera z 1925 roku zaczęto dbać o to, by dla uzyskanych wyników prezentować poziom istotności statystycznej (grupa A różni się istotnie od grupy B, p<0,05). To pojęcie istotności statystycznej przez długi czas utożsamiane było z pojęciem istotności w ogóle, a wyniki, w których udało się przekroczyć „magiczną” wartość 0,05 (zaproponowaną jako optymalną właśnie przez Fishera), traktowane były jako wiarygodne i odzwierciedlające ważne, realne zależności.
Należy pamiętać jednak, że istotność statystyczna jest pojęciem ściśle odnoszącym się do sytuacji, w której badana prowadzone są na wybranej (często niewielkiej) grupie osób, a na podstawie wyników chcemy wypowiadać się o całej populacji, dla której ta grupa jest swego rodzaju reprezentantem. Jeśli, dla przykładu (co prawda mało psychologicznego), stwierdzimy, że w firmie A dziesięciu menadżerów zatrudnionych w dziale produkcji zarabia średnio o 300 zł mniej niż dziesięciu menadżerów zatrudnionych w dziale projektów, to w obrębie tej firmy średnia różnica 300 zł jest faktem. Nie wymaga ona żadnego dodatkowego sprawdzania jej wiarygodności (wystarczą dane z listy płac). Dopiero w sytuacji, gdy zbierzemy dane od losowo wybranych 20 menadżerów z różnych firm i stwierdzimy, że menadżerowie zatrudnieni w dziale produkcji zarabiają średnio o 300 zł mniej niż menadżerowie zatrudnieni w dziale projektów, może nam przyjść do głowy wątpliwość, czy różnica ta dotyczy jedynie przebadanych 20 osób, czy też jest charakterystyczna dla wszystkich obecnych lub przyszłych menadżerów zatrudnianych w tych dwóch działach. Aby to rozstrzygnąć, za pomocą odpowiedniego testu statystycznego (np. testu t Studenta) możemy sprawdzić, czy wynik, który uzyskaliśmy, powinniśmy traktować wyłącznie jako przypadkowy, czy jednak różnicę uzyskaną na 20 osobach można bez większego ryzyka (ustalonego np. na 0,05) uznać za charakterystyczną dla całej populacji.
Innymi słowy, wynik istotny statystycznie pokazałby nam, że uzyskana w tej 20 osobowej grupie różnica jest nieprzypadkowa i wiarygodnie odzwierciedla to, co dzieje się w całej populacji menadżerów. Brak istotności statystycznej dla naszej różnicy oznaczałby z kolei, że uzyskany wynik należy traktować jako przypadkowy – odzwierciedla on jedynie błąd losowy charakterystyczny dla badanej próby, a biorąc pod uwagę całą populację, obie grupy zarabiają być może tyle samo. Ponieważ błąd losowy zawsze jest specyficzny dla próby, badając kolejne 20 osób, moglibyśmy uzyskać różnicę rzędu zaledwie 30 zł lub okazałoby się wręcz, że w dziale produkcji zarabia się więcej, a nie mniej.
Nawet jednak, gdy wykażemy istotność statystyczną naszej różnicy pozostaje pytanie, czy te 300 zł to dużo, czy mało? Znając siłę nabywczą pieniądza jesteśmy w stanie ocenić wartość tej kwoty, ale w kontekście porównywania zarobków odpowiedź uzależniona jest od dodatkowych czynników. Może się bowiem okazać, że pensje menadżerów w dziale produkcji wynoszą od 2900 zł do 3100 zł, ze średnią wartością około 3000 zł. Przeciętny menadżer z działu projektów zarabia 300 zł więcej, a więc znacznie powyżej górnej granicy zarobków menadżerów z działu produkcji. Może być jednak i tak, że pensja menadżerów w dziale produkcji waha się od 2300 zł do 3700 zł, ze średnią ponownie wynoszącą około 3000 zł. W tym przypadku wielu pracowników działu projektów – choć zarabiają średnio 300 zł więcej (czyli przeciętnie 3300 zł) – i tak będzie miało zarobki niższe, niż niektórzy pracownicy z działu produkcji (których zarobki mogą dochodzić nawet od 3700 zł). W tej drugiej sytuacji średnia różnica w zarobkach między tymi dwiema grupami, choć nominalnie identyczna (300 zł), będzie zdecydowanie mniej odczuwalna niż w sytuacji pierwszej.
Dodatkowo, warto zwrócić uwagę, że inaczej ocenimy różnicę 300 zł wiedząc, że średnia pensja menadżera to 2000 zł, inaczej, gdy okaże się, że średnia pensja menadżera to około 18000 zł. W pierwszym przypadku dodatkowe 300 zł w dziale projektów może okazać się kwotą znaczącą, podczas gdy w tym drugiem przypadku powiemy, że średnie pensje w obu działach są praktycznie identyczne.
A teraz, wracając na grunt badań psychologicznych, wyobraźmy sobie, że jedna z grup badanych uzyskuje w kwestionariuszu X o 5 punktów więcej niż grupa druga. Różnica okazuje się istotna statystycznie. Czy jest ona duża, czy mała? Czy oznacza zauważalne różnice w funkcjonowaniu obu grup, czy też – z punktu widzenia praktyki psychologicznej – nie ma ona żadnego znaczenia? Innymi słowy – jaka jest waga (teoretyczna i praktyczna) takiego wyniku?Skale stosowane w psychologii są z reguły dość arbitralne i „goła” różnica pięciu punktów w żaden sposób nie pozwala nam odpowiedzieć na powyższe pytania. Czym innym byłaby wszak pięciopunktowa różnica w kontekście skali od 0 do 100 punktów, czym innym w skali od 1 do 10. Czym innym byłaby sytuacja, w której wyniki badanych są rozproszone po całej skali, czym innym sytuacja, gdy skupiają się silnie wokół pojedynczej wartości. Trudno też, nie mając zewnętrznego układu odniesienia, określić, czy wynik taki miałby jakiekolwiek znaczenie praktyczne (jeśli np. byłyby to wyniki kwestionariusza STAI i wynosiłyby 23 punkty dla grupy pierwszej i 28 punktów dla grupy drugiej, oznaczałoby to, że mimo istotnej statystycznie różnicy wyniki obu grup powinny być oceniane jako niskie, więc te międzygrupowe różnice mogą okazać się diagnostycznie nieistotne).
Z tego względu pojęcie istotności wyników powinno być rozumiane szerzej niż sama istotność statystyczna. Wynik istotny (w szerszym, obecnym rozumieniu) to wynik nie tylko nieprzypadkowy, ale też wynik znaczący, ważny, wskazujący na realnie obserwowalne zależności. W przypadku pomiarów fizycznych ocena wyników może być zwykle dokonywana bezpośrednio (wskaźniki np. wielkości czy prędkości nie mają charakteru arbitralnego), jednak miary psychologiczne (np. skale w kwestionariuszach) są z reguły relatywne, często konstruowane jednorazowo na potrzeby konkretnego badania, i słabo nadają się do bezpośrednich porównań. W tej sytuacji potrzebne są miary wielkości związków czy różnic między zmiennymi, które miałyby charakter znormalizowany, ułatwiający ich ocenę. Są to tzw. wskaźniki wielkości efektu statystycznego. Trzeba podkreślić, że mimo pewnych zależności, wielkość efektu i istotność statystyczna nie są ze sobą bezpośrednio związane. Przy odpowiednio dużej próbie nawet niewielkie różnice mogą spełniać kryterium istotności statystycznej. Z drugiej strony, nawet efekty o odczuwalnym natężeniu mogą mieć charakter różnic wyłącznie przypadkowych, specyficznych jedynie dla badanej próby i nie dających podstaw do uogólniania na populację.
Nacisk na uwzględnianie wielkości efektu bardzo wyraźnie narastał od początku lat dziewięćdziesiątych XX wieku (np. artykuł Cohena z 1992 jest jednym z najczęściej przywoływanych tekstów zwierających wskazówki, kiedy wielkość efektu oceniać jako małą, średnią lub dużą). Obecnie raportowanie – poza istotnością statystyczną – adekwatnej miary siły efektu jest standardem wprowadzonym przez wiele czasopism oraz wyrażonym wprost w zrewidowanej piątej edycji APA Publication Manual (i podtrzymanym oczywiście w aktualnej, szóstej edycji). Samych miar siły efektu jest prawdopodobnie kilkadziesiąt, choć – w sposób najbardziej ogólny – można je podzielić na dwie duże grupy: miary, które w wystandaryzowany sposób odzwierciedlają różnice między średnimi (np. d Cohena, Δ Glassa) oraz miary, które pokazują, jaka proporcja zmienności wyników jest „wyjaśniana” przez inne zmienne (np. eta2, R2). Niektórzy autorzy (np. Fritz, Morris i Richler, 2012) wyróżniają też jako oddzielną grupę miary charakterystyczne dla danych kategorialnych, podczas gdy inni (np. Vacha-Haase i Thompson, 2004) jako osobną grupę traktują miary skorygowane (np. ω2, skorygowane R2). W najbliższych odsłonach biuletynu przyjrzymy się pierwszej grupie, najwięcej miejsca poświęcając interpretacji (i ograniczeniom) współczynnika d Cohena. W kolejnych przejdziemy m. in. do niejasności narosłych wokół miar należących do grupy drugiej, w tym różnic między współczynnikami eta2, cząstkowym eta2 czy ω2. Kwestia samej istotności statystycznej i tego, na ile przywiązywać się do „magicznej” wartości 0,05 sama w sobie też warta jest szerszego komentarza, to jednak temat na jedną z dalszych opowieści.
dr Piotr Zieliński
Wojskowy Instytut Medycyny Lotniczej
Pozycje cytowane:
Cohen, J. (1992). A power primer. Psychological Bulletin, 112(1), 155-159.
Fisher, R. (1925). Statistical methods for research workers. Edinburgh: Oliver and Boyd. http://psychclassics.yorku.ca/Fisher/Methods/index.htm
Fritz, C.O., Morris, P.E., Richler, J.J. (2012). Effect size estimates: current use, calcultaions, and interpretation. Journal of Experimental Psychology: General, 141(1), 2-18.
Student (1908). The probable error of a mean. Biometrika, 6(1), 1-25. http://www.york.ac.uk/depts/maths/histstat/student.pdf
Vacha-Haase, T., Thompson, B. (2004). How to estimate and interpret various effect sizes. Journal of Counseling Psychology, 51(4), 473-481.