O testach statystycznych

Testy statystyczne i interpretacja wyników

Każdy test: medyczny, diagnostyczny, system rozpoznawania — zwraca wynik: pozytywny lub negatywny. Intuicyjnie myślimy, że dokładny test (99% accuracy) oznacza 99% pewność naszej diagnozy. To błędne założenie.

Choć może brzmieć dziwnie — test o 99% czułości i 99% swoistości wcale nie gwarantuje, że pozytywny wynik oznacza 99% szansę diagnozy.

Powód: musimy uwzględnić, jak powszechne jest to co szukamy.

Z macierzy błędów wiemy, że każdy test ma cztery wymiary błędu:

Czułość (sensitivity, recall): jaki % rzeczywiście chorych test chwyta jako pozytywne
Swoistość (specificity): jaki % rzeczywiście zdrowych test chwyta jako negatywne
False positive rate: jaki % zdrowych test mylnie klasyfikuje jako pozytywne
False negative rate: jaki % chorych test przegapia jako negatywne

To jest base rate fallacy — błąd polegający na ignorowaniu bazowej częstości zjawiska na rzecz informacji konkretnej i jaskrawej. To bezpośrednia kuzynka efektu ignorowania mianownika , tylko w wersji warunkowej.

Przykład 1 — rzadka choroba

Idziesz na badanie kontrolne. Lekarz robi test na chorobę X — występuje ona u 1 osoby na 10 000. Test jest świetny: gdy ktoś jest chory, wykrywa to w 99% przypadków. Gdy ktoś jest zdrowy, daje wynik negatywny też w 99% przypadków. Wynik wraca: pozytywny. Z jakim prawdopodobieństwem faktycznie jesteś chory?

W eksperymencie Caseccia-Berlina (1989) prawie wszyscy ankietowani lekarze odpowiadali: „99%", a w najlepszym przypadku „około 95%". Test jest przecież dokładny w 99%, więc pozytywny wynik powinien oznaczać wysoką pewność diagnozy — tak rozumowali profesjonaliści zajmujący się medycyną na co dzień.

Prawidłowa odpowiedź: około 1%, nie 99%, nie 90%. Jeden procent.

To jest stukrotne przeszacowanie. Błąd nie jest marginalny.

Myślenie populacją

Wyobraź sobie milion osób przebadanych testem na tę samą chorobę:

Baza: choroba występuje u 1 na 10 000
Czułość testu: 99% (wykrywa 99% naprawdę chorych)
Swoistość testu: 99% (prawidłowo oznacza 99% zdrowych jako negatywnych)

Test choroby — wynik na milionie zbadanych.
Grupa	Liczba osób	Wynik testu: +	Wynik testu: −
Faktycznie chorzy (1/10 000)	100	99	1
Faktycznie zdrowi	999 900	9 999	989 901
Razem	1 000 000	10 098	989 902

Czytaj tabelę w ten sposób:

Na milionie ludzi jest 100 rzeczywiście chorych. Test chwyta 99 z nich (bo ma 99% czułości). Jeden przegapił — to false negative.
Na milionie ludzi jest 999 900 zdrowych. Test powinien oznaczyć ich jako negatywne w 99% — ale 1% (to ~10 000 osób) zostaje błędnie oznaczony jako pozytywny. To są false positives — zdrowi ludzie z pozytywnym wynikiem.
Ile osób łącznie ma wynik pozytywny? Dodaj kolumnę: 99 (chorych złapanych) + 9 999 (zdrowych błędnie powiedzieć) = 10 098 osób z pozytywnym wynikiem.
Spośród tych 10 098 — ilu faktycznie chorych? Tylko 99. To znaczy: na każdy prawdziwy pozytywny przypadek przypadają ~100 fałszywych alarmów.

Kiedy twój test wraca pozytywny, jesteś statystycznie w grupie 10 098 osób. Zaledwie 99 z nich jest rzeczywiście chorych. Twoja szansa to: 99 na 10 098, czyli mniej niż 1%.

Wizualizacja: na 1 000 000 osób zaledwie 100 chorych, ale 9 999 false positives — pozytywny wynik testu w przeważającej większości pochodzi od zdrowych.

Gdy widzisz „test ma X% dokładności" przy rzadkim zjawisku, najpierw spytaj o bazę. Jeśli baza jest rzadsza niż false positive rate — większość pozytywów to fałszywe alarmy, nawet przy „świetnym" teście.

Przykład 2 — rozpoznawanie twarzy w monitoringu miejskim

Live facial recognition (LFR) — kamery w przestrzeni publicznej skanujące twarze przechodniów i porównujące je z bazą poszukiwanych. London Metropolitan Police i inne agencje uważają to za świetny system — ma 99% skuteczności.

Wyobraź sobie 100 000 osób przechodzących dziennie przed kamerą LFR. Na liście poszukiwanych jest osoba X. System ma 99% skuteczności. Z jakim prawdopodobieństwem, jeśli wyda alarm, naprawdę wykrył właściwą osobę?

Parametry systemu:

Baza (częstość poszukiwanego): 1 na 100 000
Czułość systemu: 99% (wykrywa 99% osób ze swojej listy)
False positive rate: 0,1% (błędnie wskazuje każdego tysięcznego niewinnego przechodnia)

LFR na 100 000 zeskanowanych twarzy dziennie — gdzie trafia alarm.
Grupa	Liczba osób	Alarm systemu (+)	Brak alarmu (−)
Poszukiwany (1/100 000)	1	1	0
Niewinny przechodzień	99 999	100	99 899
Razem	100 000	101	99 899

Czytaj tabelę:

Jest 1 poszukiwany. System chwyta go w 99% — w tym dniu 1 alarm trafia.
Jest 99 999 niewinnych. System się myli na 0,1% z nich — to ~100 fałszywych alarmów. 0,1% wydaje się śmieszne. Ale 0,1% z 100 000 testów to 100 fałszywych alarmów dziennie — liczba, którą musimy przemnożyć przez ilość przeprowadzanych testów. Mała procentowo stawka staje się katastrofalna w skali.
Ile alarmów łącznie? 1 + 100 = ~101 alarmów dziennie.
Ile z tych 101 to rzeczywiste trafienia? Tylko 1. Reszta — 100 zatrzymanych na darmo.

Gdy system wydaje alarm, jesteś w grupie 101 podejrzanych. Zaledwie 1 jest faktycznie poszukiwany. Twoja szansa to: 1 na 101, czyli mniej niż 1%.

To nie jest teoria. Raport Big Brother Watch (2018) podsumował rzeczywiste testy LFR w UK: na 104 alarmów systemu Met Police w okresie testowym, tylko 2 były prawidłowymi identyfikacjami. Reszta — innocent people, w tym matka z dzieckiem zatrzymana na 30 minut. Niemal 98% błędów — dokładnie taki rząd, jaki pokazuje matematyka powyżej.

Na co uważać

Pytania do zadania, gdy ktoś macha ci pod nosem „N% skuteczności".
Pytanie	Po co
Jaka jest baza?	Bez tego liczba dokładności jest bezużyteczna
Jaki jest false positive rate, nie tylko accuracy?	Accuracy maskuje strukturę błędów; dla rzadkich zdarzeń liczy się FPR
Ile pozytywnych wyników to true positives?	To dopiero jest „prawdopodobieństwo że jesteś chory"
Czy mogę zrobić drugi niezależny test?	Powtórny niezależny test mnoży priors — drugi pozytyw to już realny sygnał
Czy „dokładność" liczona była na grupie podobnej do mojej?	Dokładność z badań screeningowych ≠ dokładność w grupie objawowej

Ostatni wiersz jest kluczowy w medycynie: istotne jest jak testy są kalibrowane. Czy na populacji ogólnej, czy tej już z objawami podejrzanej z jakiegoś powodu i skierowanej na test? Jeśli stosujesz je na populacji bezobjawowej (badanie kontrolne), baza spada o rzędy wielkości i wzór Bayesa robi z testu loterię. To jest powód, dla którego masowy screening rzadkich chorób jest kontrowersyjny — nie dlatego, że testy są złe, tylko dlatego, że baza jest zła.

Powiązane błędy poznawcze

Błąd base rate fallacy rzadko występuje sam. Wszystkie poniższe efekty mają jeden wspólny mianownik: mózg ignoruje szerszy kontekst na rzecz konkretnej informacji.

Błędy poznawcze spokrewnione z base rate fallacy
Błąd	Na czym polega
Efekt ignorowania mianownika	Bezwarunkowa wersja tego samego problemu — licznik przyciąga uwagę więcej niż mianownik. 9 z 100 wydaje się gorsza niż 1 z 10 choć to drugie daje wyższą szansę
Paradoks Simpsona	Trend widoczny w zagregowanych danych odwraca się po rozbiciu na podgrupy — inny problem z perspektywą prowadzi do podobnie absurdalnych wniosków
Conjunction fallacy	Linda jest kasjerką i feministką oceniane jako bardziej prawdopodobne niż samo Linda jest kasjerką — konkretny opis wypycha abstrakcję
Representativeness heuristic	Ocenianie prawdopodobieństwa po podobieństwie do stereotypu zamiast po rzeczywistej częstości — mechanizm leżący pod base rate fallacy
Prosecutor's fallacy	Mylenie dowodu danego że niewinny z niewinny danego że dowód — dokładnie ten sam błąd warunkowania w salach sądowych
Survivorship bias	Patrzymy tylko na tych którzy przetrwali; reszta wypadła z kadru i nie ma jej w bazie — deformuje całą proporcję