Testy statystyczne i interpretacja wyników

Każdy test: medyczny, diagnostyczny, system rozpoznawania — zwraca wynik: pozytywny lub negatywny. Intuicyjnie myślimy, że dokładny test (99% accuracy) oznacza 99% pewność naszej diagnozy. To błędne założenie.

Choć może brzmieć dziwnie — test o 99% czułości i 99% swoistości wcale nie gwarantuje, że pozytywny wynik oznacza 99% szansę diagnozy.

Powód: musimy uwzględnić, jak powszechne jest to co szukamy.

Z macierzy błędów wiemy, że każdy test ma cztery wymiary błędu:

  • Czułość (sensitivity, recall): jaki % rzeczywiście chorych test chwyta jako pozytywne
  • Swoistość (specificity): jaki % rzeczywiście zdrowych test chwyta jako negatywne
  • False positive rate: jaki % zdrowych test mylnie klasyfikuje jako pozytywne
  • False negative rate: jaki % chorych test przegapia jako negatywne

To jest base rate fallacy — błąd polegający na ignorowaniu bazowej częstości zjawiska na rzecz informacji konkretnej i jaskrawej. To bezpośrednia kuzynka efektu ignorowania mianownika , tylko w wersji warunkowej.

Przykład 1 — rzadka choroba

Idziesz na badanie kontrolne. Lekarz robi test na chorobę X — występuje ona u 1 osoby na 10 000. Test jest świetny: gdy ktoś jest chory, wykrywa to w 99% przypadków. Gdy ktoś jest zdrowy, daje wynik negatywny też w 99% przypadków. Wynik wraca: pozytywny. Z jakim prawdopodobieństwem faktycznie jesteś chory?

W eksperymencie Caseccia-Berlina (1989) prawie wszyscy ankietowani lekarze odpowiadali: „99%", a w najlepszym przypadku „około 95%". Test jest przecież dokładny w 99%, więc pozytywny wynik powinien oznaczać wysoką pewność diagnozy — tak rozumowali profesjonaliści zajmujący się medycyną na co dzień.

Prawidłowa odpowiedź: około 1%, nie 99%, nie 90%. Jeden procent.

To jest stukrotne przeszacowanie. Błąd nie jest marginalny.

Myślenie populacją

Wyobraź sobie milion osób przebadanych testem na tę samą chorobę:

  • Baza: choroba występuje u 1 na 10 000
  • Czułość testu: 99% (wykrywa 99% naprawdę chorych)
  • Swoistość testu: 99% (prawidłowo oznacza 99% zdrowych jako negatywnych)
Test choroby — wynik na milionie zbadanych.
GrupaLiczba osóbWynik testu: +Wynik testu: −
Faktycznie chorzy (1/10 000)100991
Faktycznie zdrowi999 9009 999989 901
Razem1 000 00010 098989 902

Czytaj tabelę w ten sposób:

  1. Na milionie ludzi jest 100 rzeczywiście chorych. Test chwyta 99 z nich (bo ma 99% czułości). Jeden przegapił — to false negative.

  2. Na milionie ludzi jest 999 900 zdrowych. Test powinien oznaczyć ich jako negatywne w 99% — ale 1% (to ~10 000 osób) zostaje błędnie oznaczony jako pozytywny. To są false positives — zdrowi ludzie z pozytywnym wynikiem.

  3. Ile osób łącznie ma wynik pozytywny? Dodaj kolumnę: 99 (chorych złapanych) + 9 999 (zdrowych błędnie powiedzieć) = 10 098 osób z pozytywnym wynikiem.

  4. Spośród tych 10 098 — ilu faktycznie chorych? Tylko 99. To znaczy: na każdy prawdziwy pozytywny przypadek przypadają ~100 fałszywych alarmów.

Kiedy twój test wraca pozytywny, jesteś statystycznie w grupie 10 098 osób. Zaledwie 99 z nich jest rzeczywiście chorych. Twoja szansa to: 99 na 10 098, czyli mniej niż 1%.

Wizualizacja: na 1 000 000 osób zaledwie 100 chorych, ale 9 999 false positives — pozytywny wynik testu w przeważającej większości pochodzi od zdrowych.

Gdy widzisz „test ma X% dokładności" przy rzadkim zjawisku, najpierw spytaj o bazę. Jeśli baza jest rzadsza niż false positive rate — większość pozytywów to fałszywe alarmy, nawet przy „świetnym" teście.

Przykład 2 — rozpoznawanie twarzy w monitoringu miejskim

Live facial recognition (LFR) — kamery w przestrzeni publicznej skanujące twarze przechodniów i porównujące je z bazą poszukiwanych. London Metropolitan Police i inne agencje uważają to za świetny system — ma 99% skuteczności.

Wyobraź sobie 100 000 osób przechodzących dziennie przed kamerą LFR. Na liście poszukiwanych jest osoba X. System ma 99% skuteczności. Z jakim prawdopodobieństwem, jeśli wyda alarm, naprawdę wykrył właściwą osobę?

Parametry systemu:

  • Baza (częstość poszukiwanego): 1 na 100 000
  • Czułość systemu: 99% (wykrywa 99% osób ze swojej listy)
  • False positive rate: 0,1% (błędnie wskazuje każdego tysięcznego niewinnego przechodnia)
LFR na 100 000 zeskanowanych twarzy dziennie — gdzie trafia alarm.
GrupaLiczba osóbAlarm systemu (+)Brak alarmu (−)
Poszukiwany (1/100 000)110
Niewinny przechodzień99 99910099 899
Razem100 00010199 899

Czytaj tabelę:

  1. Jest 1 poszukiwany. System chwyta go w 99% — w tym dniu 1 alarm trafia.

  2. Jest 99 999 niewinnych. System się myli na 0,1% z nich — to ~100 fałszywych alarmów. 0,1% wydaje się śmieszne. Ale 0,1% z 100 000 testów to 100 fałszywych alarmów dziennie — liczba, którą musimy przemnożyć przez ilość przeprowadzanych testów. Mała procentowo stawka staje się katastrofalna w skali.

  3. Ile alarmów łącznie? 1 + 100 = ~101 alarmów dziennie.

  4. Ile z tych 101 to rzeczywiste trafienia? Tylko 1. Reszta — 100 zatrzymanych na darmo.

Gdy system wydaje alarm, jesteś w grupie 101 podejrzanych. Zaledwie 1 jest faktycznie poszukiwany. Twoja szansa to: 1 na 101, czyli mniej niż 1%.

To nie jest teoria. Raport Big Brother Watch (2018) podsumował rzeczywiste testy LFR w UK: na 104 alarmów systemu Met Police w okresie testowym, tylko 2 były prawidłowymi identyfikacjami. Reszta — innocent people, w tym matka z dzieckiem zatrzymana na 30 minut. Niemal 98% błędów — dokładnie taki rząd, jaki pokazuje matematyka powyżej.

Na co uważać

Pytania do zadania, gdy ktoś macha ci pod nosem „N% skuteczności".
PytaniePo co
Jaka jest baza?Bez tego liczba dokładności jest bezużyteczna
Jaki jest false positive rate, nie tylko accuracy?Accuracy maskuje strukturę błędów; dla rzadkich zdarzeń liczy się FPR
Ile pozytywnych wyników to true positives?To dopiero jest „prawdopodobieństwo że jesteś chory"
Czy mogę zrobić drugi niezależny test?Powtórny niezależny test mnoży priors — drugi pozytyw to już realny sygnał
Czy „dokładność" liczona była na grupie podobnej do mojej?Dokładność z badań screeningowych ≠ dokładność w grupie objawowej

Ostatni wiersz jest kluczowy w medycynie: istotne jest jak testy są kalibrowane. Czy na populacji ogólnej, czy tej już z objawami podejrzanej z jakiegoś powodu i skierowanej na test? Jeśli stosujesz je na populacji bezobjawowej (badanie kontrolne), baza spada o rzędy wielkości i wzór Bayesa robi z testu loterię. To jest powód, dla którego masowy screening rzadkich chorób jest kontrowersyjny — nie dlatego, że testy są złe, tylko dlatego, że baza jest zła.

Powiązane błędy poznawcze

Błąd base rate fallacy rzadko występuje sam. Wszystkie poniższe efekty mają jeden wspólny mianownik: mózg ignoruje szerszy kontekst na rzecz konkretnej informacji.

Błędy poznawcze spokrewnione z base rate fallacy
BłądNa czym polega
Efekt ignorowania mianownika Bezwarunkowa wersja tego samego problemu — licznik przyciąga uwagę więcej niż mianownik. 9 z 100 wydaje się gorsza niż 1 z 10 choć to drugie daje wyższą szansę
Paradoks Simpsona Trend widoczny w zagregowanych danych odwraca się po rozbiciu na podgrupy — inny problem z perspektywą prowadzi do podobnie absurdalnych wniosków
Conjunction fallacyLinda jest kasjerką i feministką oceniane jako bardziej prawdopodobne niż samo Linda jest kasjerką — konkretny opis wypycha abstrakcję
Representativeness heuristicOcenianie prawdopodobieństwa po podobieństwie do stereotypu zamiast po rzeczywistej częstości — mechanizm leżący pod base rate fallacy
Prosecutor's fallacyMylenie dowodu danego że niewinny z niewinny danego że dowód — dokładnie ten sam błąd warunkowania w salach sądowych
Survivorship biasPatrzymy tylko na tych którzy przetrwali; reszta wypadła z kadru i nie ma jej w bazie — deformuje całą proporcję