metodologia · badania · edukacja

Gra w liczby

1

Gra w liczby: Co terapeuci powinni wiedzieć o wielkościach efektu

Badanie wylądowało w skrzynce dr Katrin Weiss pewnego poniedziałkowego poranka w Monachium, wciśnięte między przypomnienia o wizytach i służbowy komunikat o parkingu. Firma farmaceutyczna promowała nowe leczenie wspomagające dla depresji opornej na leczenie, a nagłówek był imponujący: „Wykazano istotną poprawę (p < 0,001)." Weiss, która szkoliła się zarówno w psychoterapii, jak i psychiatrii, poczuła znajomy odruch sceptycyzmu. Kliknęła, żeby dotrzeć do oryginalnej pracy. Wielkość próby: czterdziestu trzech pacjentów. Brak przedziałów ufności. Wielkość efektu zakopana w materiałach uzupełniających. Zamknęła kartę i wróciła do notatek klinicznych.

Ten drobny akt higieny statystycznej — kwestionowanie twierdzenia, szukanie rzeczywistych liczb — zdarza się rzadziej, niż mógłby, biorąc pod uwagę stawkę decyzji leczniczych. Nie dlatego, że terapeuci są naiwni, ale dlatego, że język badań ewoluował w sposób utrudniający dostęp, owinięty w greckie litery i skróty, które często wydają się bardziej wykluczające niż zachęcające. Wielkości efektu, przedziały ufności, liczby potrzebne do leczenia — właściwie używane, pomagają odróżnić solidne wyniki od dopracowanego marketingu. Zrozumienie ich nie jest luksusem dla specjalistów zainteresowanych badaniami. To praktyczna samoobrona.

Zacznijmy od najczęściej cytowanej miary: d Cohena, która mierzy różnicę między dwiema grupami w jednostkach odchylenia standardowego. Mały efekt (d = 0,2) oznacza, że grupa leczona poprawiła się o około jedną piątą odchylenia standardowego więcej niż grupa kontrolna. Średni efekt (d = 0,5) osiąga pół odchylenia standardowego. Duży efekt (d = 0,8) sugeruje, że przeciętny leczony pacjent poradził sobie lepiej niż około siedemdziesiąt dziewięć procent grupy kontrolnej — liczba wyprowadzona z nakładania się dwóch rozkładów normalnych, czasem nazywana „wielkością efektu w języku potocznym."

Ale oto co te liczby oznaczają w kategoriach wyjaśnionej wariancji: mały efekt odpowiada za około osiem procent różnicy między grupami. Średni efekt wyjaśnia około dwadzieścia procent. Duży efekt — taki, który trafia na nagłówki — obejmuje trzydzieści siedem procent. Nawet gdy terapia wykazuje „duży" efekt, sześćdziesiąt trzy procent tego, co determinuje wyniki, pozostaje niewyjaśnione. To nie jest porażka terapii. To natura ludzkiej złożoności. Czynniki kształtujące zdrowienie wykraczają daleko poza jakąkolwiek interwencję: relacje, zatrudnienie, genetyka, czas, szczęście. Gdy ktoś twierdzi, że „udowodnił" skuteczność leczenia, zwykle przesadza — w najlepszym razie to skrót myślowy, w najgorszym marketing. W psychoterapii szacujemy efekty i ich niepewność. Rzadko cokolwiek dowodzimy.

Rozważmy konkretny przykład. Wyobraźmy sobie niemieckie badanie ambulatoryjne porównujące terapię poznawczo-behawioralną plus zwykłą opiekę ze zwykłą opieką samą dla umiarkowanej depresji. Badanie podaje d = 0,35 z 95-procentowym przedziałem ufności [0,10; 0,60]. Co to właściwie mówi? Oszacowanie punktowe sugeruje mały do średniego efekt. Ale przedział ufności — zakres prawdopodobnych prawdziwych wartości — rozciąga się od ledwo wykrywalnego (0,10) do umiarkowanie znaczącego (0,60). Badanie jest uczciwe co do swojej niepewności. Gdyby przedział wynosił [−0,05; 0,75], obejmując zero, wniosek by się zmienił: nie możemy wykluczyć, że leczenie w ogóle nie ma efektu.

To prowadzi nas do najbardziej źle rozumianej statystyki w badaniach: wartości p. Gdy badanie podaje p < 0,05, oznacza to, że obserwowany wynik wystąpiłby rzadziej niż w pięciu procentach przypadków przez sam przypadek, przy założeniu, że nie ma prawdziwego efektu. Nie oznacza to, że jest dziewięćdziesiąt pięć procent szansy, że leczenie działa. Nie mówi, jak duży jest efekt. Badanie z dziesięcioma tysiącami uczestników może osiągnąć p < 0,001 dla trywialnie małego efektu, podczas gdy badanie z trzydziestoma uczestnikami może nie osiągnąć istotności mimo znaczącej korzyści. Wartość p to próg, nie miara ważności. Przedziały ufności ujawniają to, co wartości p ukrywają: zakres niepewności wokół każdego wyniku.

Przełożenie wielkości efektu na znaczenie kliniczne wymaga kolejnej miary: liczby potrzebnej do leczenia, czyli NNT. Odpowiada ona na proste pytanie: ilu pacjentów musi otrzymać interwencję, żeby jedna dodatkowa osoba odniosła korzyść w porównaniu z grupą kontrolną? Im mniej, tym lepiej. Dla naszego hipotetycznego badania CBT z d = 0,35 NNT wychodzi około osiem do dziesięciu — co oznacza, że na każdych osiem do dziesięciu leczonych pacjentów jeden dodatkowy pacjent zdrowieje, który nie wyzdrowiałby przy samej zwykłej opiece. Dla kontekstu, leki przeciwdepresyjne versus placebo zwykle pokazują NNT siedem do ośmiu w dużych metaanalizach. Metaanaliza Lamberta i Shimokawa z 2011 roku dotycząca terapii opartej na informacji zwrotnej — wykorzystującej rutynowe monitorowanie wyników do kierowania leczeniem — wykazała wielkość efektu około d = 0,25 dla zapobiegania pogorszeniu, co przekłada się na NNT mniej więcej dziesięć do piętnastu. To skromne liczby. Ale też znaczące. W psychoterapii, gdzie przewlekłość jest powszechna, a wskaźniki spontanicznego zdrowienia znacznie się różnią, NNT dwanaście reprezentuje prawdziwą wartość kliniczną. Błędem jest oczekiwanie cudownych uzdrowień.

Istnieją wiarygodne sygnały ostrzegawcze przy ocenie badań nad terapią. Badania z mniej niż pięćdziesięcioma uczestnikami na grupę są niedostatecznie zasilone — ich oszacowania niestabilne, podatne na gwałtowne wahania przy replikacji. Małe próby mają też tendencję do produkowania zawyżonych wielkości efektu, zjawisko zwane „klątwą zwycięzcy." Schematy pre-post bez grup kontrolnych są zasadniczo bezwartościowe dla ustalania efektów leczenia, ponieważ pacjenci często poprawiają się naturalnie z upływem czasu przez regresję do średniej, zmiany życiowe lub zwykłe przejście epizodu depresyjnego. Gdy badanie podaje jedynie, że pacjenci poprawili się od wartości wyjściowych, bez porównania z nieleczonymi kontrolami, nie mówi prawie nic o tym, czy leczenie spowodowało tę poprawę. Badania finansowane przez przemysł bez niezależnej replikacji zasługują na ten sam sceptycyzm, jaki zastosowalibyśmy do restauracji recenzującej samą siebie. Żadna z tych czerwonych flag nie dowodzi, że badanie jest bezwartościowe, ale powinny znacznie obniżyć pewność.

Dr Weiss przez dwie dekady praktyki wypracowała prostą heurystykę. Gdy przedstawia się jej nowe twierdzenie o leczeniu, zadaje trzy pytania: Jaka jest wielkość efektu? Jaki jest przedział ufności? Czy zostało to niezależnie zreplikowane? Jeśli jakakolwiek odpowiedź brzmi „nie podano" lub „nieznane," odkłada twierdzenie do kategorii „interesujące, ale nieudowodnione" i idzie dalej.

To podejście ma ograniczenia i uczciwość wymaga ich nazwania. Nie każdy terapeuta chce angażować się na tym poziomie szczegółowości statystycznej i ta niechęć jest uzasadniona — terapia to praca relacyjna, nie analiza danych. Średnie grupowe przesłaniają zmienność indywidualną; pacjent, który dramatycznie reaguje na interwencję o małych średnich efektach, jest nie mniej realny niż ten, który nie wykazuje reakcji na „udowodnione" leczenie. Co więcej, randomizowane badania zwykle wykluczają złożonych pacjentów ze współchorobowością, którzy wypełniają niemieckie praktyki ambulatoryjne i szpitalne — osoba z depresją, przewlekłym bólem i niepewną sytuacją mieszkaniową rzadko kwalifikuje się do badań, które generują nasze wielkości efektu. To oznacza, że liczby, które cytujemy, mogą nie uogólniać się na ludzi, których faktycznie leczymy. Umiejętność czytania statystyk nie zrobi z ciebie metodologa. Po prostu daje wystarczająco dużo, żeby zadawać lepsze pytania.

W Niemczech, gdzie ochrona danych ma niemal konstytucyjną wagę, a opieka oparta na wytycznych kształtuje refundację, te pytania mają praktyczne znaczenie. Gdy G-BA ocenia nowe podejście psychoterapeutyczne lub gdy Krankenkasse żąda dowodów na leczenie, dane bazowe będą zawierać wielkości efektu i przedziały ufności. Umiejętność ich czytania — i znajomość ich ograniczeń — nie jest akademicka. Decyduje o tym, które terapie staną się dostępne i jak będą świadczone. Inne europejskie konteksty niosą własne wrażliwości: w Polsce systematyczne zbieranie danych może wywoływać niewygodne historyczne echa; we Francji tradycje psychodynamiczne stawiają uzasadnione pytania o to, co pomija kwantyfikacja. To nie są irracjonalne zastrzeżenia. To przypomnienia, że liczby niosą ciężar kulturowy i że pomiar służy osądowi klinicznemu, nie odwrotnie.

Co to oznacza w poniedziałkowy poranek? Gdy słyszysz „udowodnione," pytaj o wielkość efektu i przedział ufności. Bądź ostrożny z badaniami poniżej pięćdziesięciu uczestników na grupę. Odrzucaj schematy pre-post jako dowód na związki przyczynowe. Traktuj NNT dziesięć do piętnastu jako klinicznie znaczące w psychoterapii, biorąc pod uwagę przewlekłość wielu stanów. A gdy badania przeczą twojemu doświadczeniu z konkretnym pacjentem, używaj obu źródeł wiedzy — nie wyrzucaj żadnego. Badania mówią o populacjach. Twój osąd dotyczy osoby przed tobą.

Wyrafinowanie statystyczne nie powinno stawać się nową formą paraliżu. Skromna wielkość efektu może reprezentować dla jednego konkretnego pacjenta różnicę między stopniowym zdrowieniem a przedłużającym się cierpieniem. Celem nie jest pewność, lecz skalibrowana niepewność — zdolność odróżniania solidnych wyników od szumu, uczciwych badaczy od sprawnych marketingowców. W dziedzinie tak złożonej i upokarzającej jak psychoterapia ta skromna ochrona jest wiele warta.

Dr Weiss wciąż otrzymuje promocyjne maile. Wciąż je czyta, czasem. Ale teraz wie, których liczb szukać — i co robić, gdy ich brakuje.

Bądź na bieżąco z
wnioskami opartymi na dowodach

Subskrybuj, aby otrzymywać nowe tłumaczenia badań i aktualizacje bezpośrednio na swoją skrzynkę pocztową.