Testy statystyczne i interpretacja wyników

Każdy test: medyczny, diagnostyczny, system rozpoznawania, zwraca wynik pozytywny lub negatywny. Intuicyjnie zakłada się, że dokładny test (99% accuracy) oznacza 99% pewność diagnozy. To błędne założenie.

Test o 99% czułości i 99% swoistości wcale nie gwarantuje, że pozytywny wynik oznacza 99% szansę diagnozy. Wynik zależy od tego, jak powszechne jest zjawisko, którego szukamy.

Z macierzy błędów wiemy, że każdy test ma cztery wymiary błędu:

  • Czułość (sensitivity, recall): jaki % rzeczywiście chorych test chwyta jako pozytywne
  • Swoistość (specificity): jaki % rzeczywiście zdrowych test chwyta jako negatywne
  • False positive rate: jaki % zdrowych test mylnie klasyfikuje jako pozytywne
  • False negative rate: jaki % chorych test przegapia jako negatywne

To jest base rate fallacy: błąd polegający na ignorowaniu bazowej częstości zjawiska na rzecz informacji konkretnej i jaskrawej. Jest to warunkowa odmiana efektu ignorowania mianownika .

Przykład 1 — rzadka choroba

Idziesz na badanie kontrolne. Lekarz robi test na chorobę X — występuje ona u 1 osoby na 10 000. Test jest świetny: gdy ktoś jest chory, wykrywa to w 99% przypadków. Gdy ktoś jest zdrowy, daje wynik negatywny też w 99% przypadków. Wynik wraca: pozytywny. Z jakim prawdopodobieństwem faktycznie jesteś chory?

W klasycznym eksperymencie Casscellsa, Schoenbergera i Graboysa (1978) zadano lekarzom analogiczne pytanie (prevalence 1/1000, false positive rate 5%). Najczęstsza odpowiedź brzmiała „95%", podało ją aż 45% ankietowanych. Tylko 18% odpowiedziało poprawnie. Rozumowanie było typowe: skoro test jest dokładny, pozytywny wynik powinien oznaczać wysoką pewność diagnozy.

Prawidłowa odpowiedź: około 1%, nie 99%, nie 90%. Jeden procent.

To jest stukrotne przeszacowanie. Błąd nie jest marginalny.

Myślenie populacją

Wyobraź sobie milion osób przebadanych testem na tę samą chorobę:

  • Baza: choroba występuje u 1 na 10 000
  • Czułość testu: 99% (wykrywa 99% naprawdę chorych)
  • Swoistość testu: 99% (prawidłowo oznacza 99% zdrowych jako negatywnych)
Test choroby — wynik na milionie zbadanych.
GrupaLiczba osóbWynik testu: +Wynik testu: −
Faktycznie chorzy (1/10 000)100991
Faktycznie zdrowi999 9009 999989 901
Razem1 000 00010 098989 902

Czytaj tabelę w ten sposób:

  1. Na milionie ludzi jest 100 rzeczywiście chorych. Test chwyta 99 z nich (bo ma 99% czułości). Jeden przegapił — to false negative.

  2. Na milionie ludzi jest 999 900 zdrowych. Test powinien oznaczyć ich jako negatywne w 99% — ale 1% (to ~10 000 osób) zostaje błędnie oznaczony jako pozytywny. To są false positives — zdrowi ludzie z pozytywnym wynikiem.

  3. Ile osób łącznie ma wynik pozytywny? Dodaj kolumnę: 99 (chorych złapanych) + 9 999 (zdrowych błędnie oznaczonych) = 10 098 osób z pozytywnym wynikiem.

  4. Spośród tych 10 098 — ilu faktycznie chorych? Tylko 99. To znaczy: na każdy prawdziwy pozytywny przypadek przypadają ~100 fałszywych alarmów.

Kiedy twój test wraca pozytywny, jesteś statystycznie w grupie 10 098 osób. Zaledwie 99 z nich jest rzeczywiście chorych. Twoja szansa to: 99 na 10 098, czyli mniej niż 1%.

Wizualizacja: na 1 000 000 osób zaledwie 100 chorych, ale 9 999 false positives — pozytywny wynik testu w przeważającej większości pochodzi od zdrowych.

Gdy widzisz „test ma X% dokładności" przy rzadkim zjawisku, najpierw spytaj o bazę. Jeśli baza jest rzadsza niż false positive rate — większość pozytywów to fałszywe alarmy, nawet przy „świetnym" teście.

Przykład 2 — rozpoznawanie twarzy w monitoringu miejskim

Live facial recognition (LFR) to kamery w przestrzeni publicznej skanujące twarze przechodniów i porównujące je z bazą poszukiwanych. London Metropolitan Police i inne agencje stosują go powołując się na 99% skuteczności.

Wyobraź sobie 100 000 osób przechodzących dziennie przed kamerą LFR. Na liście poszukiwanych jest osoba X. System ma 99% skuteczności. Z jakim prawdopodobieństwem, jeśli wyda alarm, naprawdę wykrył właściwą osobę?

Parametry systemu:

  • Baza (częstość poszukiwanego): 1 na 100 000
  • Czułość systemu: 99% (wykrywa 99% osób ze swojej listy)
  • False positive rate: 0,1% (błędnie wskazuje każdego tysięcznego niewinnego przechodnia)
LFR na 100 000 zeskanowanych twarzy dziennie — gdzie trafia alarm.
GrupaLiczba osóbAlarm systemu (+)Brak alarmu (−)
Poszukiwany (1/100 000)110
Niewinny przechodzień99 99910099 899
Razem100 00010199 899

Czytaj tabelę:

  1. Jest 1 poszukiwany. System chwyta go w 99% — w tym dniu 1 alarm trafia.

  2. Jest 99 999 niewinnych. System myli się na 0,1% z nich, co daje ~100 fałszywych alarmów. 0,1% wydaje się marginalną wartością, ale 0,1% z 100 000 testów to 100 fałszywych alarmów dziennie. Mała stawka procentowa staje się katastrofalna w skali.

  3. Ile alarmów łącznie? 1 + 100 = ~101 alarmów dziennie.

  4. Ile z tych 101 to rzeczywiste trafienia? Tylko 1. Reszta — 100 zatrzymanych na darmo.

Gdy system wydaje alarm, dana osoba trafia do grupy 101 podejrzanych. Zaledwie 1 jest faktycznie poszukiwany: szansa trafienia wynosi 1 na 101, czyli mniej niż 1%.

To nie jest teoria. Raport Big Brother Watch (2018) podsumował rzeczywiste testy LFR w UK: na 104 alarmów systemu Met Police w okresie testowym, tylko 2 były prawidłowymi identyfikacjami. Reszta — innocent people, w tym matka z dzieckiem zatrzymana na 30 minut. Niemal 98% błędów — dokładnie taki rząd, jaki pokazuje matematyka powyżej.

Na co uważać

Pytania do zadania, gdy ktoś macha ci pod nosem „N% skuteczności".
PytaniePo co
Jaka jest baza?Bez tego liczba dokładności jest bezużyteczna
Jaki jest false positive rate, nie tylko accuracy?Accuracy maskuje strukturę błędów; dla rzadkich zdarzeń liczy się FPR
Ile pozytywnych wyników to true positives?To dopiero jest „prawdopodobieństwo że jesteś chory"
Czy mogę zrobić drugi niezależny test?Powtórny niezależny test mnoży priors — drugi pozytyw to już realny sygnał
Czy „dokładność" liczona była na grupie podobnej do mojej?Dokładność z badań screeningowych ≠ dokładność w grupie objawowej

Ostatni wiersz jest kluczowy w medycynie: istotne jest, na jakiej populacji test był kalibrowany. Czy na populacji ogólnej, czy na pacjentach już z objawami, skierowanych na badanie z konkretnego powodu? Zastosowanie testu na populacji bezobjawowej (badanie kontrolne) obniża bazę o rzędy wielkości i wzór Bayesa zamienia test w loterię. To powód, dla którego masowy screening rzadkich chorób jest kontrowersyjny: nie dlatego, że testy są złe, tylko dlatego, że baza jest zła.

Powiązane błędy poznawcze

Base rate fallacy rzadko występuje sam. Wszystkie poniższe efekty łączy ten sam mechanizm: mózg ignoruje szerszy kontekst na rzecz konkretnej informacji.

Błędy poznawcze spokrewnione z base rate fallacy
BłądNa czym polega
Efekt ignorowania mianownika Bezwarunkowa wersja tego samego problemu — licznik przyciąga uwagę więcej niż mianownik. 9 z 100 wydaje się gorsza niż 1 z 10 choć to drugie daje wyższą szansę
Paradoks Simpsona Trend widoczny w zagregowanych danych odwraca się po rozbiciu na podgrupy — inny problem z perspektywą prowadzi do podobnie absurdalnych wniosków
Conjunction fallacyLinda jest kasjerką i feministką oceniane jako bardziej prawdopodobne niż samo Linda jest kasjerką — konkretny opis wypycha abstrakcję
Representativeness heuristicOcenianie prawdopodobieństwa po podobieństwie do stereotypu zamiast po rzeczywistej częstości — mechanizm leżący pod base rate fallacy
Prosecutor's fallacyMylenie dowodu danego że niewinny z niewinny danego że dowód — dokładnie ten sam błąd warunkowania w salach sądowych
Survivorship biasPatrzymy tylko na tych którzy przetrwali; reszta wypadła z kadru i nie ma jej w bazie — deformuje całą proporcję