Odcinek 13 . Od czego zależy moc testu, i do czego ta wiedza może być przydatna

W poprzednim odcinku omówiliśmy szczegółowo, czym we wnioskowaniu statystycznym są błędy I i II rodzaju. Błąd I rodzaju, którego dopuszczalny poziom oznaczany jest literą α, dotyczy sytuacji, w której widoczny w naszej analizie związek między zmiennymi potraktujemy jako nieprzypadkowy, podczas gdy tak naprawdę w populacji związek taki nie występuje. Tradycyjnie przyjmowana wartość α=0.05 oznacza, że dopuszczamy najwyżej pięcioprocentowe prawdopodobieństwo popełnienia tego typu błędu – jest to na tyle mało, że (w przypadku wyników spełniających to kryterium) bardziej skłonni jesteśmy uznać, że widoczny w naszej analizie związek jest realny i odzwierciedla to, co dzieje się na poziomie populacji. Z kolei błąd II rodzaju, którego wartość oznaczamy literą β, dotyczy sytuacji odwrotnej – poziom β oznacza prawdopodobieństwo, że w naszych badaniach nie wykryjemy istotnej zależności, choć na poziomie populacyjnym jest ona obecna. Tradycyjnie przyjmowana dopuszczalna wartość β=0.2 oznacza równocześnie moc testu wynoszącą 0.8 (czyli 1–β). Moc testu to parametr pokazujący, jak duże jest prawdopodobieństwo, że w naszej badanej próbie uda się wykryć istotną zależność między zmiennymi (przy założeniu, że istnieje ona na poziomie populacyjnym). Przyjrzymy się teraz, od czego to prawdopodobieństwo zależy.

Najkrócej rzec ujmując, moc testu jest powiązana z trzema innymi wartościami charakteryzującymi prowadzoną przez nas analizę – z tym, jak silny w populacji jest badany związek (może to być wyrażone za pomocą jakiejś miary wielkości efektu – właśnie nimi zajmowaliśmy się w większości dotychczasowych wydań Biuletynu), z liczebnością badanej przez nas próby, oraz z przyjętym przez nas poziomem α. W zasadzie, znając dowolne trzy z wymienionych wartości (moc testu, wielkość efektu, liczebność próby, wartość α) w większości testów statystycznych bez problemu możemy wyliczyć tę czwartą, brakującą. Na tym właśnie opiera się prospektywna analiza mocy testu, o której wspominałem w poprzednim odcinku.

Zależność mocy testu od wielkości efektu wydaje się dość intuicyjna. Zakładając, że mamy stałą liczebność próby (np. dwie grupy po sto osób) i przyjęliśmy stały poziom α (np. tradycyjne 0.05), to im większy jest związek dwóch zmiennych w populacji, tym większe jest prawdopodobieństwo, że uda nam się go wykryć w naszej losowej, dwustuosobowej próbie.  Wracając do przykładu z jednego z pierwszych odcinków Biuletynu, przyjmijmy, że chcemy porównać strażaków i policjantów pod względem poziomu odczuwanego stresu zawodowego. Z każdej z grup zawodowych losujemy stuosobową próbę, ustalamy dopuszczalny poziom błędu pierwszego rodzaju na 0.05. Jeżeli w badanej populacji różnica w odczuwanym stresie między tymi dwiema grupami zawodowymi jest duża (odwołując się do miary d Cohena, przyjmijmy wielkość efektu o wartości 0.8, co zgodnie z sugestią Cohena traktujemy jako efekt silny), to poziom β w teście t-Studenta wynosi około 0.0001, co daje nam prawie stuprocentową pewność, że losując dwie stuosobowe grupy, dostrzeżemy między nimi istotną różnicę (jeśli taka rzeczywiście istnieje). Jeśli różnica w populacji ma średnią wielkość (d Cohena wynoszące 0.5), to β będzie wynosić około 0.06, co daje nam moc testu (i prawdopodobieństwo wykrycia tej różnicy) około 0.94. To poziom zdecydowanie zadowalający, przypomnijmy, że tradycyjne za akceptowalny poziom mocy uznaje się już 0.8. Jeżeli jednak różnica w populacji, choć realna, jest niewielka (wartość d Cohena równa 0.2, co tradycyjnie oznacza słaby efekt), to wielkość β (w porównaniu dwóch stuosobowych prób) wynosi około 0.71, czyli w większości przypadków ryzykujemy, że w naszej losowej próbie nie uda nam się tej różnicy wychwycić. Po prostu wyniki obu grup zawodowych (na poziomie populacji) są do siebie na tyle zbliżone, że istnieje duże prawdopodobieństwo, że w próbach losowych, nawet tak licznych jak próby stuosobowe, wyniki nie odzwierciedlą tej niewielkiej różnicy.

Drugim czynnikiem, od którego uzależniona jest moc testu, jest liczebność próby. Zakładając, że istnieje pewna ustalona wielkość efektu w badanej przez nas populacji, i przyjmując pewien stały poziom α, im większe próby będziemy losować do naszego badania, tym większa jest szansa, że tę zależność populacyjną wychwycimy. Dlaczego? Mówiąc w skrócie – im większa próba, tym mniejszy wpływ błędu losowego na szacowane na podstawie tej próby wyniki (np. średnie dla grupy strażaków i policjantów). Jeśli więc w populacji jakaś zależność (np. różnica między grupami) jest realna, to im większa będzie nasza próba badana, tym większa szansa, że zależność ta nie zostanie zamaskowana przez błąd losowy. Wracając do przykładu z poprzedniego akapitu – przy założeniu, że istnieje realna różnica między strażakami i policjantami, ale jest ona niewielka (d Cohena równe 0.2), to w stuosobowych próbach moc testu wynosi niecałe 0.3 (a dokładnie 1–0.71). Jeśli zwiększymy liczebność naszych próbek ze stu do dwustu osób, zmniejszy się wartość β, a moc testu wzrośnie do około 0.51. Zdecydowanie lepiej, choć wciąż jest to poziom mało satysfakcjonujący – oznacza, że prawdopodobieństwo wykrycia populacyjnej zależności w naszym badaniu jest trochę jak rzut monetą (uda się lub nie uda, 50/50). Aby osiągnąć uznawany za akceptowalny poziom mocy wynoszący 0.8, musielibyśmy zwiększyć liczebność naszych próbek do około 400 osób w każdej z nich. Czyli łącznie musielibyśmy przebadać 800 osób, by osiągnąć tradycyjnie akceptowalny poziom ryzyka (około 20%), że w takiej próbie nie uda nam się tych niewielkich populacyjnych zależności odtworzyć…

Trzecim czynnikiem, z którym wiąże się poziom mocy testu, jest przyjęta w analizie wartość α. Przy założeniu, że wielkość efektu (w populacji!) jest ustalona, i w sytuacji stałej liczebności badanej przez nas próby, im bardziej będziemy liberalni w kontroli błędu I rodzaju, tym lepiej będziemy kontrolować błąd II rodzaju. Jeżeli zwiększymy wielkość α ze standardowego poziomu 0.05 do np. poziomu 0.1 (a więc zwiększymy ryzyko, że zaakceptujemy różnicę przypadkową, podczas gdy w populacji żadnej różnicy nie ma), to obniżymy wielkość β, czyli zwiększymy moc testu. Dzieje się tak dlatego, że zwiększając α, jesteśmy bardziej skłonni uznawać wykrytą przez nas zależność jako realną, nieprzypadkową, co oznacza, że jeśli w populacji taka zależność rzeczywiście istnieje, to jest większa szansa, że jej nie przegapimy. Z kolei obniżając α (np. do bardzo ostrego poziomu 0.001), zabezpieczamy się przed fałszywym uznaniem zależności przypadkowej, ale równocześnie bardziej ryzykujemy, że nie uznamy za istotną zależności, która jest realna. Wracając znów do naszego przykładu – przy średniej wielkości efektu (d Cohena wynoszące 0.5) i przy stuosobowych próbach nasza moc testu wynosiła około 0.94. Obniżając próg α do 0.01, moc testu spada do około 0.82. Wynika z tego, że badając dwieście osób i lepiej kontrolując prawdopodobieństwo błędu I rodzaju (czyli lepiej zabezpieczając się przed „odkryciem” nieistniejącego związku), wciąż jesteśmy w stanie utrzymać moc testu na zadowalającym poziomie. Zmieniając próg α na 0.001, moc testu spada jednak do wartości około 0.58. Widać więc wyraźnie, że przy takiej kontroli błędu I rodzaju znacząco ryzykujemy, że w naszym badaniu nie wykryjemy realnej, istniejącej na poziomie populacji różnicy. Aby przy poziomie α równym 0.001 i populacyjnej wielkości efektu d = 0.5 utrzymać poziom mocy testu na zalecanym 0.8, musielibyśmy zwiększyć liczebność naszej próby przynajmniej do 140 osób na grupę badaną (czyli przebadać łącznie minimum 280 osób).

Opisane zależności są równocześnie podpowiedzią, w jaki sposób, planując badanie i analizę statystyczną, zadbać o odpowiednią kontrolę poziomu błędu zarówno I, jak i II rodzaju. Jeżeli chcemy zagwarantować, że prawdopodobieństwo obu typów błędów utrzymamy na akceptowalnych, tradycyjnych poziomach (α=0.05 i β=0.2), pozostaje nam tylko oszacować, jakiego efektu (w sensie jego wielkości) spodziewamy się w badanej populacji. Jak to zrobić? Możemy bazować na teorii, możemy oprzeć się na wynikach wcześniejszych badań, możemy też przyjąć, że np. efekt słabszy niż przeciętny (czyli np. niższy niż d=0.5) nie będzie miał znaczenia praktycznego i nie leży w sferze naszych zainteresowań. Kiedy już założymy, jak silnej zależności spodziewamy się w populacji, to możemy wtedy wyliczyć, jaka jest minimalna liczba osób, którą musimy przebadać, by utrzymać oba typy błędów na kontrolowanym poziomie.

Tego rodzaju analiza, zwana prospektywną analizą mocy, powinna być prowadzona na etapie poprzedzającym realizację badań. Pozwala ona bowiem prawidłowo zaplanować nasze badanie i zebrać środki na uwzględnienie takiej liczby osób badanych, która zapewni nam duże prawdopodobieństwo potwierdzenia empirycznie naszej hipotezy, jeśli tylko jest ona prawdziwa. Z drugiej strony – przy ograniczonych środkach (np. przy niemożliwości zwiększenia badanej próby) – analiza mocy da nam wyraźny sygnał, że być może nie warto inwestować w przedsięwzięcie, w którym istnieje (jak w jednym z dzisiejszych przykładów) tylko 30% szans, że uda nam się wykazać poszukiwaną zależność. Ewentualnie, przy znanej liczebności próby (której, z jakichś przyczyn, nie będziemy w stanie zwiększyć), może pokazać nam, że zapewniamy sensowny poziom kontroli błędów tylko pod warunkiem, że wielkość efektu w populacji jest co najmniej średnia – pytanie, czy mamy podstawy przypuszczać, że tak jest w rzeczywistości?

We współczesnej nauce analiza mocy testu, prowadzona przed przystąpieniem do badań, staje się zalecanym i coraz częściej weryfikowanym standardem. Pokazuje ona bowiem, że badacz jest świadomy błędów, jakie można popełnić prowadząc wnioskowanie statystyczne, i stara się ich prawdopodobieństwo kontrolować (tj. utrzymywać na akceptowalnym poziomie). Pokazuje też, że w sposób świadomy planuje swoje badanie, nie „inwestując” w przedsięwzięcia o niewielkich szansach na zysk naukowy, ale z drugiej strony też nie marnotrawi dostępnych mu środków (po co badać 400 osób, jeśli połowa takiej grupy może zapewnić niewiele gorszy, przyzwoity poziom trafności wnioskowania statystycznego…). Zadziwiające jest jednak, jak wielu badaczy do tej pory nie przywiązuje do tego zagadnienia należytej wagi.

Dodatkowym wątkiem wymagającym komentarza jest jeszcze możliwość wyliczania mocy testu retrospektywnie, co oferuje obecnie wiele programów statystycznych. Pod hasłem „obserwowanej mocy” wyliczana jest wartość 1–β w oparciu o liczebność próby, kryterium α oraz wielkość efektu, jaka została uzyskana w analizie tej badanej próby. Możemy więc porównać dwie stuosobowe grupy testem t-Studenta i uzyskać wynik istotny, np. z p=0.003 (czyli dużo poniżej naszej wartości krytycznej α=0.05) i z wielkością różnicy wyrażoną jako d=0.42. Dla takich wyników, moc obserwowana (w teście dwustronnym) będzie wynosiła około 0.84. Możemy więc post factum powiedzieć, że kontrola błędu II rodzaju była adekwatna. Czy jednak na pewno?

Retrospektywna analiza mocy testu jest techniką kontrowersyjną, kryją się w niej bowiem pewne pułapki logiczne. Analiza ta opiera się bowiem na wielkości efektu wyliczonej na podstawie badanej próby, i na założeniu, że ta wielkość efektu trafnie odzwierciedla efekt w populacji (a właśnie znajomość efektu populacyjnego jest potrzebna do określenia poziomu β i mocy testu). Takie rozumowanie jest jednak z kilku względów chybione, najprościej zaś ująć to w ten sposób: jeśli zakładamy, że wielkość efektu w próbie (np. różnica między grupami) odzwierciedla dokładnie zależność populacyjną, to w zasadzie wykluczamy możliwość popełnienia błędu I i II rodzaju – nasz wynik jest po prostu wynikiem trafnym. Cała koncepcja błędów we wnioskowaniu statystycznym opiera się przecież na tym, że wyniki uzyskane w próbie mogą być efektem błędu losowego i zaniżać realny efekt populacyjny (wtedy ryzykujemy błąd II rodzaju) lub pokazywać różnice tam, gdzie tak naprawdę ich nie ma (wtedy ryzykujemy błąd I rodzaju). Jeśli przyjmiemy, że uzyskany przez nas wynik jest wynikiem trafnym, to rozważania, na ile jest prawdopodobne, że w badaniach uzyskamy wynik trafny (i nie popełnimy błędu), stają się bezprzedmiotowe. Dodatkowo, jak można wykazać, przy stałej wielkości próby (czyli takiej, jaką mieliśmy w naszych badaniach) i stałej wielkości efektu (czyli takiej, jaką założyliśmy na podstawie naszego wyniku), moc testu jest bezpośrednią funkcją czwartej z wartości, czyli uzyskanej w naszej analizie wartości p. Można więc powiedzieć, że analiza mocy obserwowanej nie niesie ze sobą żadnych dodatkowych informacji poza tymi, które już zostały ujęte w wynikach naszego badania. Na pewno zaś – jak chcieliby niektórzy autorzy, nawet w „poważnych” czasopismach naukowych – wysoka obserwowana moc testu w wynikach nieistotnych nie może być traktowana jako dowód na prawdziwość hipotezy zerowej (tj. dowód braku różnic na poziomie populacji).

Dociekliwy czytelnik, po przeczytaniu obecnego i kilku wcześniejszych tekstów z naszego działu, może zwrócić uwagę na jeszcze jedną rzecz. Wielokrotnie powoływałem się w swoich opisach na „tradycyjną” wartość α wynoszącą 0.05, oraz na „powszechnie przyjęty” poziom mocy testu wynoszący 0.8. Skąd jednak te „tradycyjne” wartości się biorą? Jaki jest ich rodowód, i jakie są argumenty, że właśnie te, a nie inne wartości są najbardziej optymalne? Tę właśnie kwestię postaram się rozwikłać w kolejnym odcinku.

 

dr Piotr Zieliński
Wojskowy Instytut Medycyny Lotniczej