Testy statystyczne i interpretacja wyników
Każdy test: medyczny, diagnostyczny, system rozpoznawania, zwraca wynik pozytywny lub negatywny. Intuicyjnie zakłada się, że dokładny test (99% accuracy) oznacza 99% pewność diagnozy. To błędne założenie.
Test o 99% czułości i 99% swoistości wcale nie gwarantuje, że pozytywny wynik oznacza 99% szansę diagnozy. Wynik zależy od tego, jak powszechne jest zjawisko, którego szukamy.
Z macierzy błędów wiemy, że każdy test ma cztery wymiary błędu:
- Czułość (sensitivity, recall): jaki % rzeczywiście chorych test chwyta jako pozytywne
- Swoistość (specificity): jaki % rzeczywiście zdrowych test chwyta jako negatywne
- False positive rate: jaki % zdrowych test mylnie klasyfikuje jako pozytywne
- False negative rate: jaki % chorych test przegapia jako negatywne
To jest base rate fallacy: błąd polegający na ignorowaniu bazowej częstości zjawiska na rzecz informacji konkretnej i jaskrawej. Jest to warunkowa odmiana efektu ignorowania mianownika .
Przykład 1 — rzadka choroba
Idziesz na badanie kontrolne. Lekarz robi test na chorobę X — występuje ona u 1 osoby na 10 000. Test jest świetny: gdy ktoś jest chory, wykrywa to w 99% przypadków. Gdy ktoś jest zdrowy, daje wynik negatywny też w 99% przypadków. Wynik wraca: pozytywny. Z jakim prawdopodobieństwem faktycznie jesteś chory?
W klasycznym eksperymencie Casscellsa, Schoenbergera i Graboysa (1978) zadano lekarzom analogiczne pytanie (prevalence 1/1000, false positive rate 5%). Najczęstsza odpowiedź brzmiała „95%", podało ją aż 45% ankietowanych. Tylko 18% odpowiedziało poprawnie. Rozumowanie było typowe: skoro test jest dokładny, pozytywny wynik powinien oznaczać wysoką pewność diagnozy.
Prawidłowa odpowiedź: około 1%, nie 99%, nie 90%. Jeden procent.
To jest stukrotne przeszacowanie. Błąd nie jest marginalny.
Myślenie populacją
Wyobraź sobie milion osób przebadanych testem na tę samą chorobę:
- Baza: choroba występuje u 1 na 10 000
- Czułość testu: 99% (wykrywa 99% naprawdę chorych)
- Swoistość testu: 99% (prawidłowo oznacza 99% zdrowych jako negatywnych)
| Grupa | Liczba osób | Wynik testu: + | Wynik testu: − |
|---|---|---|---|
| Faktycznie chorzy (1/10 000) | 100 | 99 | 1 |
| Faktycznie zdrowi | 999 900 | 9 999 | 989 901 |
| Razem | 1 000 000 | 10 098 | 989 902 |
Czytaj tabelę w ten sposób:
Na milionie ludzi jest 100 rzeczywiście chorych. Test chwyta 99 z nich (bo ma 99% czułości). Jeden przegapił — to false negative.
Na milionie ludzi jest 999 900 zdrowych. Test powinien oznaczyć ich jako negatywne w 99% — ale 1% (to ~10 000 osób) zostaje błędnie oznaczony jako pozytywny. To są false positives — zdrowi ludzie z pozytywnym wynikiem.
Ile osób łącznie ma wynik pozytywny? Dodaj kolumnę: 99 (chorych złapanych) + 9 999 (zdrowych błędnie oznaczonych) = 10 098 osób z pozytywnym wynikiem.
Spośród tych 10 098 — ilu faktycznie chorych? Tylko 99. To znaczy: na każdy prawdziwy pozytywny przypadek przypadają ~100 fałszywych alarmów.
Kiedy twój test wraca pozytywny, jesteś statystycznie w grupie 10 098 osób. Zaledwie 99 z nich jest rzeczywiście chorych. Twoja szansa to: 99 na 10 098, czyli mniej niż 1%.
Gdy widzisz „test ma X% dokładności" przy rzadkim zjawisku, najpierw spytaj o bazę. Jeśli baza jest rzadsza niż false positive rate — większość pozytywów to fałszywe alarmy, nawet przy „świetnym" teście.
Przykład 2 — rozpoznawanie twarzy w monitoringu miejskim
Live facial recognition (LFR) to kamery w przestrzeni publicznej skanujące twarze przechodniów i porównujące je z bazą poszukiwanych. London Metropolitan Police i inne agencje stosują go powołując się na 99% skuteczności.
Wyobraź sobie 100 000 osób przechodzących dziennie przed kamerą LFR. Na liście poszukiwanych jest osoba X. System ma 99% skuteczności. Z jakim prawdopodobieństwem, jeśli wyda alarm, naprawdę wykrył właściwą osobę?
Parametry systemu:
- Baza (częstość poszukiwanego): 1 na 100 000
- Czułość systemu: 99% (wykrywa 99% osób ze swojej listy)
- False positive rate: 0,1% (błędnie wskazuje każdego tysięcznego niewinnego przechodnia)
| Grupa | Liczba osób | Alarm systemu (+) | Brak alarmu (−) |
|---|---|---|---|
| Poszukiwany (1/100 000) | 1 | 1 | 0 |
| Niewinny przechodzień | 99 999 | 100 | 99 899 |
| Razem | 100 000 | 101 | 99 899 |
Czytaj tabelę:
Jest 1 poszukiwany. System chwyta go w 99% — w tym dniu 1 alarm trafia.
Jest 99 999 niewinnych. System myli się na 0,1% z nich, co daje ~100 fałszywych alarmów. 0,1% wydaje się marginalną wartością, ale 0,1% z 100 000 testów to 100 fałszywych alarmów dziennie. Mała stawka procentowa staje się katastrofalna w skali.
Ile alarmów łącznie? 1 + 100 = ~101 alarmów dziennie.
Ile z tych 101 to rzeczywiste trafienia? Tylko 1. Reszta — 100 zatrzymanych na darmo.
Gdy system wydaje alarm, dana osoba trafia do grupy 101 podejrzanych. Zaledwie 1 jest faktycznie poszukiwany: szansa trafienia wynosi 1 na 101, czyli mniej niż 1%.
To nie jest teoria. Raport Big Brother Watch (2018) podsumował rzeczywiste testy LFR w UK: na 104 alarmów systemu Met Police w okresie testowym, tylko 2 były prawidłowymi identyfikacjami. Reszta — innocent people, w tym matka z dzieckiem zatrzymana na 30 minut. Niemal 98% błędów — dokładnie taki rząd, jaki pokazuje matematyka powyżej.
Na co uważać
| Pytanie | Po co |
|---|---|
| Jaka jest baza? | Bez tego liczba dokładności jest bezużyteczna |
| Jaki jest false positive rate, nie tylko accuracy? | Accuracy maskuje strukturę błędów; dla rzadkich zdarzeń liczy się FPR |
| Ile pozytywnych wyników to true positives? | To dopiero jest „prawdopodobieństwo że jesteś chory" |
| Czy mogę zrobić drugi niezależny test? | Powtórny niezależny test mnoży priors — drugi pozytyw to już realny sygnał |
| Czy „dokładność" liczona była na grupie podobnej do mojej? | Dokładność z badań screeningowych ≠ dokładność w grupie objawowej |
Ostatni wiersz jest kluczowy w medycynie: istotne jest, na jakiej populacji test był kalibrowany. Czy na populacji ogólnej, czy na pacjentach już z objawami, skierowanych na badanie z konkretnego powodu? Zastosowanie testu na populacji bezobjawowej (badanie kontrolne) obniża bazę o rzędy wielkości i wzór Bayesa zamienia test w loterię. To powód, dla którego masowy screening rzadkich chorób jest kontrowersyjny: nie dlatego, że testy są złe, tylko dlatego, że baza jest zła.
Powiązane błędy poznawcze
Base rate fallacy rzadko występuje sam. Wszystkie poniższe efekty łączy ten sam mechanizm: mózg ignoruje szerszy kontekst na rzecz konkretnej informacji.
| Błąd | Na czym polega |
|---|---|
| Efekt ignorowania mianownika | Bezwarunkowa wersja tego samego problemu — licznik przyciąga uwagę więcej niż mianownik. 9 z 100 wydaje się gorsza niż 1 z 10 choć to drugie daje wyższą szansę |
| Paradoks Simpsona | Trend widoczny w zagregowanych danych odwraca się po rozbiciu na podgrupy — inny problem z perspektywą prowadzi do podobnie absurdalnych wniosków |
| Conjunction fallacy | Linda jest kasjerką i feministką oceniane jako bardziej prawdopodobne niż samo Linda jest kasjerką — konkretny opis wypycha abstrakcję |
| Representativeness heuristic | Ocenianie prawdopodobieństwa po podobieństwie do stereotypu zamiast po rzeczywistej częstości — mechanizm leżący pod base rate fallacy |
| Prosecutor's fallacy | Mylenie dowodu danego że niewinny z niewinny danego że dowód — dokładnie ten sam błąd warunkowania w salach sądowych |
| Survivorship bias | Patrzymy tylko na tych którzy przetrwali; reszta wypadła z kadru i nie ma jej w bazie — deformuje całą proporcję |