Testy statystyczne i interpretacja wyników
Każdy test: medyczny, diagnostyczny, system rozpoznawania — zwraca wynik: pozytywny lub negatywny. Intuicyjnie myślimy, że dokładny test (99% accuracy) oznacza 99% pewność naszej diagnozy. To błędne założenie.
Choć może brzmieć dziwnie — test o 99% czułości i 99% swoistości wcale nie gwarantuje, że pozytywny wynik oznacza 99% szansę diagnozy.
Powód: musimy uwzględnić, jak powszechne jest to co szukamy.
Z macierzy błędów wiemy, że każdy test ma cztery wymiary błędu:
- Czułość (sensitivity, recall): jaki % rzeczywiście chorych test chwyta jako pozytywne
- Swoistość (specificity): jaki % rzeczywiście zdrowych test chwyta jako negatywne
- False positive rate: jaki % zdrowych test mylnie klasyfikuje jako pozytywne
- False negative rate: jaki % chorych test przegapia jako negatywne
To jest base rate fallacy — błąd polegający na ignorowaniu bazowej częstości zjawiska na rzecz informacji konkretnej i jaskrawej. To bezpośrednia kuzynka efektu ignorowania mianownika , tylko w wersji warunkowej.
Przykład 1 — rzadka choroba
Idziesz na badanie kontrolne. Lekarz robi test na chorobę X — występuje ona u 1 osoby na 10 000. Test jest świetny: gdy ktoś jest chory, wykrywa to w 99% przypadków. Gdy ktoś jest zdrowy, daje wynik negatywny też w 99% przypadków. Wynik wraca: pozytywny. Z jakim prawdopodobieństwem faktycznie jesteś chory?
W eksperymencie Caseccia-Berlina (1989) prawie wszyscy ankietowani lekarze odpowiadali: „99%", a w najlepszym przypadku „około 95%". Test jest przecież dokładny w 99%, więc pozytywny wynik powinien oznaczać wysoką pewność diagnozy — tak rozumowali profesjonaliści zajmujący się medycyną na co dzień.
Prawidłowa odpowiedź: około 1%, nie 99%, nie 90%. Jeden procent.
To jest stukrotne przeszacowanie. Błąd nie jest marginalny.
Myślenie populacją
Wyobraź sobie milion osób przebadanych testem na tę samą chorobę:
- Baza: choroba występuje u 1 na 10 000
- Czułość testu: 99% (wykrywa 99% naprawdę chorych)
- Swoistość testu: 99% (prawidłowo oznacza 99% zdrowych jako negatywnych)
| Grupa | Liczba osób | Wynik testu: + | Wynik testu: − |
|---|---|---|---|
| Faktycznie chorzy (1/10 000) | 100 | 99 | 1 |
| Faktycznie zdrowi | 999 900 | 9 999 | 989 901 |
| Razem | 1 000 000 | 10 098 | 989 902 |
Czytaj tabelę w ten sposób:
Na milionie ludzi jest 100 rzeczywiście chorych. Test chwyta 99 z nich (bo ma 99% czułości). Jeden przegapił — to false negative.
Na milionie ludzi jest 999 900 zdrowych. Test powinien oznaczyć ich jako negatywne w 99% — ale 1% (to ~10 000 osób) zostaje błędnie oznaczony jako pozytywny. To są false positives — zdrowi ludzie z pozytywnym wynikiem.
Ile osób łącznie ma wynik pozytywny? Dodaj kolumnę: 99 (chorych złapanych) + 9 999 (zdrowych błędnie powiedzieć) = 10 098 osób z pozytywnym wynikiem.
Spośród tych 10 098 — ilu faktycznie chorych? Tylko 99. To znaczy: na każdy prawdziwy pozytywny przypadek przypadają ~100 fałszywych alarmów.
Kiedy twój test wraca pozytywny, jesteś statystycznie w grupie 10 098 osób. Zaledwie 99 z nich jest rzeczywiście chorych. Twoja szansa to: 99 na 10 098, czyli mniej niż 1%.
Gdy widzisz „test ma X% dokładności" przy rzadkim zjawisku, najpierw spytaj o bazę. Jeśli baza jest rzadsza niż false positive rate — większość pozytywów to fałszywe alarmy, nawet przy „świetnym" teście.
Przykład 2 — rozpoznawanie twarzy w monitoringu miejskim
Live facial recognition (LFR) — kamery w przestrzeni publicznej skanujące twarze przechodniów i porównujące je z bazą poszukiwanych. London Metropolitan Police i inne agencje uważają to za świetny system — ma 99% skuteczności.
Wyobraź sobie 100 000 osób przechodzących dziennie przed kamerą LFR. Na liście poszukiwanych jest osoba X. System ma 99% skuteczności. Z jakim prawdopodobieństwem, jeśli wyda alarm, naprawdę wykrył właściwą osobę?
Parametry systemu:
- Baza (częstość poszukiwanego): 1 na 100 000
- Czułość systemu: 99% (wykrywa 99% osób ze swojej listy)
- False positive rate: 0,1% (błędnie wskazuje każdego tysięcznego niewinnego przechodnia)
| Grupa | Liczba osób | Alarm systemu (+) | Brak alarmu (−) |
|---|---|---|---|
| Poszukiwany (1/100 000) | 1 | 1 | 0 |
| Niewinny przechodzień | 99 999 | 100 | 99 899 |
| Razem | 100 000 | 101 | 99 899 |
Czytaj tabelę:
Jest 1 poszukiwany. System chwyta go w 99% — w tym dniu 1 alarm trafia.
Jest 99 999 niewinnych. System się myli na 0,1% z nich — to ~100 fałszywych alarmów. 0,1% wydaje się śmieszne. Ale 0,1% z 100 000 testów to 100 fałszywych alarmów dziennie — liczba, którą musimy przemnożyć przez ilość przeprowadzanych testów. Mała procentowo stawka staje się katastrofalna w skali.
Ile alarmów łącznie? 1 + 100 = ~101 alarmów dziennie.
Ile z tych 101 to rzeczywiste trafienia? Tylko 1. Reszta — 100 zatrzymanych na darmo.
Gdy system wydaje alarm, jesteś w grupie 101 podejrzanych. Zaledwie 1 jest faktycznie poszukiwany. Twoja szansa to: 1 na 101, czyli mniej niż 1%.
To nie jest teoria. Raport Big Brother Watch (2018) podsumował rzeczywiste testy LFR w UK: na 104 alarmów systemu Met Police w okresie testowym, tylko 2 były prawidłowymi identyfikacjami. Reszta — innocent people, w tym matka z dzieckiem zatrzymana na 30 minut. Niemal 98% błędów — dokładnie taki rząd, jaki pokazuje matematyka powyżej.
Na co uważać
| Pytanie | Po co |
|---|---|
| Jaka jest baza? | Bez tego liczba dokładności jest bezużyteczna |
| Jaki jest false positive rate, nie tylko accuracy? | Accuracy maskuje strukturę błędów; dla rzadkich zdarzeń liczy się FPR |
| Ile pozytywnych wyników to true positives? | To dopiero jest „prawdopodobieństwo że jesteś chory" |
| Czy mogę zrobić drugi niezależny test? | Powtórny niezależny test mnoży priors — drugi pozytyw to już realny sygnał |
| Czy „dokładność" liczona była na grupie podobnej do mojej? | Dokładność z badań screeningowych ≠ dokładność w grupie objawowej |
Ostatni wiersz jest kluczowy w medycynie: istotne jest jak testy są kalibrowane. Czy na populacji ogólnej, czy tej już z objawami podejrzanej z jakiegoś powodu i skierowanej na test? Jeśli stosujesz je na populacji bezobjawowej (badanie kontrolne), baza spada o rzędy wielkości i wzór Bayesa robi z testu loterię. To jest powód, dla którego masowy screening rzadkich chorób jest kontrowersyjny — nie dlatego, że testy są złe, tylko dlatego, że baza jest zła.
Powiązane błędy poznawcze
Błąd base rate fallacy rzadko występuje sam. Wszystkie poniższe efekty mają jeden wspólny mianownik: mózg ignoruje szerszy kontekst na rzecz konkretnej informacji.
| Błąd | Na czym polega |
|---|---|
| Efekt ignorowania mianownika | Bezwarunkowa wersja tego samego problemu — licznik przyciąga uwagę więcej niż mianownik. 9 z 100 wydaje się gorsza niż 1 z 10 choć to drugie daje wyższą szansę |
| Paradoks Simpsona | Trend widoczny w zagregowanych danych odwraca się po rozbiciu na podgrupy — inny problem z perspektywą prowadzi do podobnie absurdalnych wniosków |
| Conjunction fallacy | Linda jest kasjerką i feministką oceniane jako bardziej prawdopodobne niż samo Linda jest kasjerką — konkretny opis wypycha abstrakcję |
| Representativeness heuristic | Ocenianie prawdopodobieństwa po podobieństwie do stereotypu zamiast po rzeczywistej częstości — mechanizm leżący pod base rate fallacy |
| Prosecutor's fallacy | Mylenie dowodu danego że niewinny z niewinny danego że dowód — dokładnie ten sam błąd warunkowania w salach sądowych |
| Survivorship bias | Patrzymy tylko na tych którzy przetrwali; reszta wypadła z kadru i nie ma jej w bazie — deformuje całą proporcję |