Odcinek 12. Zaczynaliśmy od alfa, trzeba powiedzieć też beta, czyli kilka słów na temat mocy testów statystycznych

Gdy zaczynał się cykl tekstów z działu statystycznego, w pierwszym odcinku punktem wyjścia było pojęcie statystycznej istotności wyników badania, oraz relacja tego pojęcia do istotności rozumianej szerzej, jako ważność, znaczenie (naukowe, praktyczne) uzyskanych wyników. Pokazałem, że istotność statystyczną można – w pewnym uproszczeniu – traktować jako wskazówkę, że uzyskany w jakiejś grupie osób wynik (np. pięciopunktowa różnica w teście zdolności przestrzennych, uzyskana z porównania wyników dwudziestu studentów architektury i dwudziestu studentów medycyny) można traktować jako nieprzypadkowy i odzwierciedlający realną różnicę, jaka istnieje na poziomie populacji (czyli: możemy przyjąć, że uzyskana różnica dotyczy nie tylko tych konkretnych, dwudziestoosobowych grup, ale ogólnie całej populacji studentów medycyny i architektury). Przy poziomie alfa ustalonym na słynne 0,05, uzyskanie istotnego wyniku oznacza mniej więcej, że gdyby w badanej populacji nie było różnic (tj. studenci medycy i architektury ogółem uzyskują wyniki identyczne), to badając losowe, dwudziestoosobowe grupy, pięciopunktowe różnice między nimi uzyskalibyśmy jedynie w około pięciu przypadkach na sto. Zazwyczaj przyjmujemy, że te „pięć na sto” to sytuacja na tyle mało prawdopodobna, że różnicę uzyskaną w naszym badaniu traktujemy raczej jako dowód na to, że populacje się różnią. Ta wartość alfa to, bardziej fachowo, prawdopodobieństwo popełnienia tzw. błędu pierwszego rodzaju, który polega na stwierdzeniu występowania zależności, której realnie nie ma. Ustalenie przed badaniem dopuszczalnej wartości alfa pozwala nam na kontrolę prawdopodobieństwa popełnienia takiego błędu. Jeśli uznamy, że poziom 0,05 to zbyt duże ryzyko, możemy być bardziej konserwatywni i ustalić alfa na 0,01 albo nawet na 0,001 (czyli ryzyko „jeden na tysiąc”).

Kolejne odcinki Biuletynu były poświęcone pokazaniu, że samo stwierdzenie istotności statystycznej nie oznacza jeszcze, że uzyskany wynik jest w jakikolwiek sposób znaczący. Różnica czy zależność, nawet nieprzypadkowa, może być tak mała, że nie ma ona żadnego znaczenia praktycznego czy naukowego. Do oceny, na ile wyniki (istotne statystycznie) mogą mieć jakąś wymierną wartość, służą tzw. miary wielkości efektu, i różnymi ich rodzajami zajmowaliśmy się podczas poprzednich spotkań. Teraz jednak czas przyjrzeć się kwestii istotności wyników od nieco innej strony.

Do tej pory, zajmując się oceną wielkości efektu, zakładaliśmy, że wyniki uzyskane przez nas w badaniu osiągają poziom statystycznej istotności (czyli np. przy alfa równym 0,05 jest tylko 5% prawdopodobieństwo, że popełniamy błąd, stwierdzając istnienie uzyskanej relacji). Co jednak, jeśli nasze wyniki nie uzyskują poziomu istotności statystycznej? Czy musi to oznaczać, że na poziomie populacji nie ma związku między interesującymi nas zmiennymi?

Na podstawowych kursach ze statystyki czy metodologii często słyszymy, że hipotezy zerowej (tj. „roboczej” hipotezy o braku związku) się nie potwierdza. Po prostu stwierdzamy, że nie mamy podstaw, by ją odrzucić. Nie ma więc podstaw empirycznych, by stwierdzić realne istnienie związku między zmiennymi, ale może to oznaczać, że na poziomie populacji faktycznie nie ma poszukiwanego przez nas związku, może też jednak oznaczać, że związek ten jest, ale w naszym badaniu z jakichś przyczyn nie udało się go wykryć. Pamiętajmy, że nie badaliśmy populacji, tylko próbę. Może była za mała, może trafiliśmy „pechowo” na osoby, które za mało się między sobą różniły? Sytuacja, w której nie udaje nam się wykryć realnie istniejącego związku to tzw. błąd drugiego rodzaju, prawdopodobieństwo jego popełnienia określamy zaś wartością beta.

Podsumujmy więc: prowadząc badania naukowe i dokonując wnioskowania statystycznego na podstawie uzyskanych wyników, możliwe są w sumie cztery sytuacje:

  1. Istnieje w populacji realny związek między zmiennymi, i w badaniach naszej próby udało się go potwierdzić – pełen sukces!
  2. W populacji nie ma tak naprawdę związku między analizowanymi zmiennymi, ale w naszej próbie taki związek się pojawił i myślimy, że w populacji też ma on miejsce – popełniamy błąd I rodzaju.
  3. W populacji nie ma tak naprawdę związku między analizowanymi zmiennymi, i w naszej próbie taki związek też się nie ujawnił – pewnie jest nam trochę przykro, że badanie „nie wyszło”, ale cóż, taka jest rzeczywistość… przeformułujemy nasze teorie i będziemy prowadzić kolejne badania.
  4. Istnieje w populacji realny związek między zmiennymi, ale w naszej próbie taki związek się nie ujawnił – pewnie też jest nam trochę przykro, że badanie „nie wyszło”, może przeformułujemy teorię, zmienimy hipotezy… i popełnimy tym samym błąd II rodzaju, czyli odrzucimy możliwość istnienia związku, który tak naprawdę ma miejsce.

Kontrolę nad poziomem błędu I rodzaju zapewniamy, jak pisałem wcześniej, ustalając odpowiedni poziom alfa podczas wykonywania analizy statystycznej. Czy da się jednak kontrolować poziom błędu II rodzaju? Zdecydowanie tak, i należy to robić, choć presja na naukowców, by podejmowali ten wątek w swych badaniach to kwestia dopiero ostatnich dwudziestu lat, a w praktyce wciąż w niewielu tekstach naukowych można znaleźć wzmianki o tym, jakie kroki zostały poczynione, by zminimalizować prawdopodobieństwo takiego błędu.

Wystarczy jednak zdać sobie sprawę, że badania, w których nie zapewniono należytego poziomu kontroli wartości beta, to badania z gruntu złe. W psychologii, medycynie czy innych naukach, gdzie przedmiotem badania jest człowiek, prowadzenie doświadczeń czy eksperymentów i oddziaływanie na ludzi w sposób, który nie zawsze można uznać za całkowicie bezpieczny i neutralny, powinno być prowadzone ostrożnie i w sposób, który gwarantuje uzyskanie jednoznacznych rezultatów. Badacz, który prowadzi eksperyment obarczony dużym ryzykiem popełnienia błędu II rodzaju, czyli niewykrycia relacji, która faktycznie istnieje, marnotrawi środki i naraża badanych na niepotrzebny dyskomfort, którego w efekcie nie równoważy żaden zysk naukowy. Z tego względu coraz częściej komisje etyczne, podczas oceny, czy dane badanie może być przeprowadzone na ludziach, biorą pod uwagę to, czy w planie badania zadbano o odpowiednią kontrolę obu typu błędów.

Kontrola prawdopodobieństwa błędu drugiego rodzaju wiąże się bezpośrednio z pojęciem mocy testu. Moc testu, obliczana w prosty sposób jako 1-beta, to wartość, która określa prawdopodobieństwo, że w przypadku istnienia realnego związku w populacji, uda się go wykryć w badanej przez nas próbie. Przyjmowana zazwyczaj (nieco arbitralnie, podobnie jak wartość 0,05 w przypadku alfa) moc testu równa 0,8 (czyli beta wynosząca 0,2) oznacza, że prowadząc badanie, w przypadku istnienia realnej zależności między zmiennymi na poziomie populacji, na 80% (czyli cztery razy na pięć) powinniśmy być w stanie tę zależność wykryć w obrębie naszej próby badanej. Moc testu statystycznego niższa niż 0,8 jest z reguły traktowana jako za niska, by wysiłek podejmowany w związku z prowadzonym badaniem ocenić pozytywnie – jest zbyt duże ryzyko, że nie przyniesie ono oczekiwanych rezultatów nawet w sytuacji, gdy postawione przez nas hipotezy są prawidłowe.

Analiza mocy testu może być prowadzona w sposób prospektywny (analiza a priori, w fazie planowania badania naukowego) oraz retrospektywnie, czyli w oparciu o zebrane wyniki. Pierwsze podejście służy faktycznej kontroli mocy testu, a więc kontroli prawdopodobieństwa popełnienia błędu II rodzaju. Badacz, analizując różne czynniki wpływające na moc statystyczną, ustala minimalne warunki, jakie powinno spełniać badanie (np. minimalną wielkość próby), by zapewnić satysfakcjonujący poziom kontroli tego błędu. Z kolei retrospektywna analiza mocy, często pojawiająca się automatycznie w programach statystycznych pod hasłem „obserwowana moc”, jest procedurą, której przydatność jest mocno dyskusyjna. W potocznym rozumieniu bowiem pozwala ona pokazać, jak duże jest prawdopodobieństwo – w przypadku wyniku nieistotnego statystycznie – że mamy do czynienia z rzeczywistym brakiem związku. Taka interpretacja jest jednak wadliwa, i jest to ściśle związane z tym, od jakich czynników faktycznie zależy poziom beta.

Omówieniem powyższych kwestii, czyli wskazaniem, od czego zależy moc testu, oraz opisem, jak przeprowadza się analizę a priori i dlaczego analiza retrospektywna jest bardziej pułapką, niż pomocą dla badacza – zajmiemy się w kolejnym odcinku.

 

dr Piotr Zieliński
Wojskowy Instytut Medycyny Lotniczej