Matematik ke covidu: Dejte data, nebo volejte věštce

Vojtěch Pišl
Vojtěch Pišl
2. 12. 2020
 15 372

„Jako matematickým modelářům nám zbývají jen oči pro pláč, nemáme data,“ říká matematik Tomáš Fürst. „Fascinovaně přitom hledím na jiné skupiny, které na základě svých modelů pořád něco sdělují. Nechápu, odkud bez vstupních dat svou jistotu berou.“

Matematik ke covidu: Dejte data, nebo volejte věštce
Zdroj: Shutterstock

Profesí jste vědec, věnujete se matematickým modelům, a jako publicista se zabýváte i společenským děním. Jaká by měla být role matematiků v průběhu pandemie?

Já už o sobě nemluvím jako o vědci, protože bych se v kontextu české vědy musel pořád za něco omlouvat, jsem spíš učitel matematiky. Ale k epidemii a vědě: řešení všeho, co v životě potkáte, mívá čtyři kroky. Nejdřív musíte sehnat data. Druhý krok je na základě těch dat udělat nějaké úsudky, nějaké inference. Třetím krokem je vytvoření predikcí – a čtvrtým se nakonec na základě těch predikcí rozhodnout. To platí u každé lidské činnosti, ať si kupujete rohlík, vybíráte školu, kterou chcete studovat, nebo třeba manželku – anebo přemýšlíte, jestli zavřít ekonomiku kvůli koronaviru.

Za každý krok je přitom ve společnosti zodpovědný někdo jiný. Sehnat data o koronaviru nemůžu já, potulný učitel matematiky, protože lidem nesmím odebírat krev a shromažďovat data o tom, jak se jmenují a kde bydlí. Čekal bych, že to udělá nějaký státní úřad, třeba Ústav pro zdravotnické a informační systémy nebo nějaký jemu podobný. Inference a predikce pak může dělat vědecká a akademická obec, veřejnost, v podstatě kdokoli. Rozhodnout potom musí politici, kteří pro to mají mandát.

Tomáš FürstFoto archiv TF

Tomáš Fürst, PhD. se na Přírodovědecké Fakultě Univerzity Palackého zabývá matematickým modelováním a výukou matematiky. Zasazuje se o větší důraz na kvalitní výuku a nižší zohlednění scientometrie v hodnocení akademiků. S forenzní genetičkou Halinou Šimkovou založil Centrum bayesovské inference, které se snaží propagovat správnou, tedy bayesovskou inferenci ve všech oblastech lidské činnosti, zejména ale v oblasti práva a spravedlnosti.

Články Tomáše Fürsta na Finmagu

Nemám pocit, že bychom v Česku postupovali právě takhle. Ve kterém bodě je problém?

Obávám se, že Česká republika havarovala v bodě nula, ještě před sháněním dat. Jediná data, která máme tři čtvrtě roku po začátku epidemie k dispozici, je počet PCR testů, které se udělaly v daném dni, a celkový počet pozitivních výsledků. Existuje i nějaký rozpis podle obcí. Takovými daty ale žádný model krmit nejde, z mnoha důvodů. Zaprvé bychom museli mít zkalibrované nástroje, kterými měříme: znát senzitivitu a specificitu těch testů…

Když jsem volal do laboratoře, kde se nechávám testovat, odpověděli mi, že jsou testy de facto stoprocentní. Že se může pokazit odběr, ale samotný laboratorní test že je neprůstřelný, protože se opakuje třikrát…

Je nutné rozlišovat laboratorní senzitivitu od senzitivity celého procesu, včetně odebrání vzorku, jeho převozu, reportování výsledků, jejich zapsání do správné kolonky v tabulce. PCR test detekuje přítomnost některých sekvencí viru na sliznici. Hlavním zdrojem falešné negativity – tedy nedostatečné senzitivity: že virus máte, ale test ho nenajde – je technika výtěru. Netrefíte se, šťouráte špatně nebo málo hluboko. Senzitivita tak nemůže být sto procent. Pro její odhad máme aspoň malinkou datovou sadu: Když se testovali klienti domova důchodců v Břevnici, dva z dvaceti lidí měli výsledky PCR střídavé: nejdřív pozitivní, pak negativní, pak zase pozitivní. Nejednalo se přitom o žádnou opakovanou nákazu: prostřední test byl zkrátka falešně negativní.

A specificita, tedy schopnost testu potvrdit, že v sobě virus nemá, a neoznačit ho mylně za nakaženého?

Specificita je zajímavější: spousta lidí tvrdí, že test nemůže být falešně pozitivní, protože pokud RNA viru nemáte, test ji tam nemůže omylem najít. Jenže o tom nemáme data – s jedinou výjimkou. Státní zdravotní ústav rozeslal v srpnu všem osmdesáti laboratořím baterii vzorků – a chtěl po nich, aby určily, jestli vzorky obsahují koronavirus, nebo ne.

Mezi vzorky byly dva bez koronaviru: jeden jen s fyziologickým roztokem, druhý s přidaným chřipkovým virem. Čtyři z osmdesáti laboratoří přitom našly koronavirus i ve vzorku, který ho neobsahoval. Laboratoře přitom věděly, že jsou testovány, takže předpokládám, že se snažily. Jsem matematik a nikdy jsem neviděl zařízení, která ty PCR testy provádí – ale když jsme je jednou otestovali, výsledkem byla specificita 95 procent. Osobně se domnívám, že senzitivita českého PCR testování je někde kolem šedesáti procent a specificita okolo pětadevadesáti.

Existují ale i jiné možnosti: testy buněčné imunity, které vůbec neděláme – víc o tom třeba v rozhovoru s Jiřím Šinkorou. Imunitní systém nejsou jen protilátky, ty jsou jen jednou z divizí celé imunitní armády. A nevím o tom, že by někdo v Česku testoval imunitu na úrovni buněčné responze. Což by bylo extrémně zajímavé, protože pokud máte protilátky proti koronaviru, je jasné, že jste ho prodělal a nejspíš jste pár měsíců chráněný, než zase klesnou. Ale pokud je nemáte, možná jste virus neměl, můžete ho dostat a onemocnět. Anebo také jste ten virus už potkal, ale váš imunitní systém jej vyhodnotil jako triviální záležitost, kvůli které vůbec protilátky nevyvíjel.

Dezinformace, koronavirus

Kolik Čechů tedy podle vašeho názoru koronavirus prodělalo? Ministerstvo zdravotnictví nasčítalo 470 tisíc „potvrzených případů“, ale taková data nezohledňují nedokonalosti testu, promoření netestované populace ani PCR-negativní lidi, kteří se s virem setkali.

Jako matematickým modelářům nám zbývají jen oči pro pláč, protože nemáme data. Mohl bych si vycucat z prstu osm různých modelů a hrát si s nimi, zkoumat, co by se dělo, kdyby vstupní parametry vypadaly nějak nebo nějak jinak. Jenže data nemám, takže mi nezbývá než prostě pokrčit rameny. Fascinovaně přitom hledím na jiné skupiny, které na základě svých modelů pořád něco sdělují. Nechápu, odkud bez vstupních dat svou jistotu berou.

A nějaký poučený odhad aspoň na základě toho mála, co víme?

V Jižních Čechách se nám díky Martinovi Kubovi podařilo otestovat tisíc lidí v Písku a tisíc ve Strakonicích. Jednalo se o částečně o dobrovolníky a částečně o profesní skupiny, hasiče a policisty, u nichž lze předpokládat, že byli viru vystaveni víc. I kdybychom testy vyhodnocovali úplně konzervativně, vycházely výsledky dobrovolnické kohorty kolem dvou procent – takže na jeden pozitivní PCR test připadaly desítky lidí, kteří už tu nemoc měli. Takže jsme tehdy říkali, že vršek ledovce, který detekujeme PCR testováním, je v řádu procent.

Dneska si to nemyslím, protože testujeme víc. Takže bych séroprevalenci odhadoval na deset až patnáct procent: protilátky proti koronaviru může v Česku mít asi milion až milion a půl lidí. Stejně ale nevíme, kolik z těch zbylých lidí, kteří protilátky nemají, se s virem ještě nesetkalo, a u kolika z nich organizmus nákazu vyřídil na úrovni buněčné imunity.

Jak potom můžeme znát reprodukční číslo každodenně uváděné Ministerstvem zdravotnictví? Pro jeho výpočet je zapotřebí znát vývoj počtu nakažených v čase, přičemž počet skutečně nakažených neznáme – a nejspíš neexistují ani údaje o tom, kolik je testovaných, protože řada lidí chodí na testy opakovaně. Dává smysl ono „R“, které každodenně zveřejňují noviny?

Vůbec nevím. Když si napíšu jednoduchý SIR model, vím, co v něm „R“ znamená. Ale z dat, která máme – tedy z počtu pozitivních testů a počtu celkových testů reportovaných k danému dni – bych takové „R“ neuměl spočítat. Třeba to někdo umí a já jsem to nezjistil, ale už v to ztrácím víru.

Většina médií se momentálně shodne, že se máme radovat, protože „R“ klesá. Můžeme dovodit, že se skutečným reprodukčním číslem aspoň lineárně souvisí, takže je radost oprávněná?

Že se věci vyvíjejí dobře, je zřejmé. Když člověk bude úplný skeptik, řekne si, že se na PCR testy o neznámých parametrech nebude dívat, když navíc stejně neví, kdy a jak je kdo indikovaný. Na protilátkové testy se dívat taky nemůže, protože je nemáme. Zbývají metriky, kolik lidí chodí okolo se symptomy a kolik jich umírá – a ty se přestaly zvyšovat. Také ukazují, že u nás na jaře nebyla žádná první vlna – tu máme teď. Kdybyste přestal číst noviny a jen sledoval data, ničeho zvláštního si na jaře nevšimnete, zatímco teď umírají asi dvě stovky lidí s koronavirem denně. Obvykle u nás přitom umírá asi 300 lidí za den. Pokud by k nim přibylo dalších 200, bylo by to dramatické zvýšení. Jaké bude ve skutečnosti, se dozvíme až s odstupem, až budou dostupná data o úmrtích v těchto týdnech.

Je možné predikovat další vývoj?

Zjevně jsme za vrcholem první vlny. Můžeme se ale přít, jestli je to výsledkem vládních opatření a o dalším vývoji. Budou nějaké další vlny? A nakolik současné zlepšení vyplývá z vládních opatření a nakolik z vnitřní dynamiky epidemie?

Co si mám pod „vnitřní dynamikou epidemie“ představit?

Složitější děje, než jaké umějí popsat jednoduché modely. V úplně nejjednodušším případě totiž uvažujeme, že se virus chová podle SIR modelu: jako bychom byli uvnitř dokonale míchaného chemického reaktoru, kde interaguje každý s každým a neexistují žádné prostorové gradienty (nejjednodušší model, který opomíjí všechno kromě nenakažené populace (S), infikované populace (I) a vyléčené populace (R), viz taky wiki; pozn. red.). Graf počtu nakažených by pak vypadal jako jeden kopec: stoupal by, dosáhnul vrcholu a zase klesal.

Z takového modelu nikdy nedostanete dva vrcholy, křivka zkrátka stoupá a následně klesá. Pokud byste měl získat vrcholy dva, musel byste přijít s nějakou intervencí: změnit chování lidí, třeba něco zavřít a otevřít. Jednoduchý model vás tak může dovést k falešné představě, že jste epidemii ovlivnil: Pokud vidíte dva vrcholy, považujete je za důkaz toho, že do procesu někdo musel zvnějšku zasáhnout.

Že tak to vůbec být nemusí, uvidíte, když si stáhnete NetLogo nebo jiný prográmek, kde si můžete pohrát s buněčnými automaty s jiným chováním (viz třeba skvělé video). S méně zjednodušujícími modely, které neříkají, že prostor neexistuje a všichni interagujeme v jednom bodě. Když zavedete prostorové gradienty, už čtyřřádkový algoritmus ukáže, že aniž by kdokoli zasáhl do chování lidí, můžou se objevit třeba tlumené oscilace nebo náhodné vlny.

Takže postup epidemie nemusí s vládními opatřeními příliš souviset?

Nevíme, jestli to tak je – tvrdím jen, že je to možné. Že dynamika viru může být třeba taková, že pokaždé nastane náraz, po něm křivka klesá, dva měsíce je klid – a pak se to celé zopakuje. Což se může dít bez ohledu na vládu, jestli něco udělá, nebo neudělá. Anebo nemusí. Nevím, protože – opakuju – nemáme ta data. Zrovna jsem se díval na počty nakažených ve Frenštátu a Rožnově pod Radhoštěm: srovnatelně velkých městech na úbočí jednoho kopce. A liší se o řád. Jak pak můžou modely ignorovat rozmístění v prostoru? Opomíjet, že se Česká republika skládá z takových jednotlivých měst, která se od sebe liší? Model, který se tváří, že jsou všichni lidé dokonale promíchaní a stýkají se každý s každým, je možná intelektuálně zábavný, ale s realitou nesouvisí.

Šéf Ústavu zdravotnických informací koncem srpna, když začal stoupat počet nakažených koronavirem, tvrdil, že bychom se měli přestat zabývat černými scénáři. Vláda epidemii bagatelizovala do krajských voleb. Bylo v té době reálné z epidemiologických dat vyvodit, že se stav zhorší a rozhodnout se lépe?

Obrázek o tom, na základě čeho se ti lidé rozhodují, si můžete udělat z excelovské tabulky, kterou vládě prezentoval Pavel Řehák, bývalý ředitel České pojišťovny. Ten mimochodem přinesl i seznam věcí, které by vláda měla udělat, než přijde další vlna; je k pláči, že se to nikdy neudělalo. Zároveň vládě ukázal exponenciálu – to bylo všechno. Vzal počet lidí pozitivně otestovaných na koronavirus, odhadl parametry exponenciální funkce, kterou osmého března protáhl do prvního dubna, kdy bychom podle ní měli čtvrt milionu případů koronaviru. Což je nejspíš příčinou toho lockdownu, který zabránil první vlně. Když si ale predikce v tabulce protáhnete dál, už dvanáctého dubna se v desetimilionovém Česku dostáváme k patnácti milionům nakažených. A po pár týdnech vám dojde celá planeta: na 29. dubna by model predikoval v České republice osm miliard nakažených lidí.

Jistý smysl to dává: Lidé nemají zkušenosti s exponenciálním růstem a mají sklony ho podceňovat. Jenže v přírodě žádný růst není exponenciální. Exponenciála je exploze – a ta vždycky skončí, když dojde třaskavý materiál. Takže jsme to první rozhodnutí, které nás stálo pět set miliard korun, založili na predikci, která do dvou týdnů vede k explozi. Na nesmyslné predikci. Pokud se rozhodujeme takhle, není to dobrá zpráva.

Premiér to odůvodnil poněkud pohádkově: někdo přišel v nějakém čase a někdo jiný nepřišel. Přemýšlel jsem, jestli třeba nečekali na statistika osmnáctého století Thomase Bayese, jehož odkaz šíříte v Centru pro bayesovskou inferenci. Co by nám poradil?

Věřím, že by řekl, ať seženeme data. Protože bez dat není inference, bez inference není predikce a bez predikce není rozhodnutí. Půl roku jsme strávili tím, že si novináři a vědci – někteří v uvozovkách, někteří skuteční – vyměňují rozhovory a názory o tom, co si myslí. Média šíří Flégrovy pohádky o virech, které se skvěle čtou – ale po dočtení zjistíte, že vůbec nemusí souviset s realitou, protože neexistují žádné datové body, které by takový příběh se skutečností propojily. Možná souvisí, možná ne. A pak jsou jiné pohádky jiných vědců…

Jenže jak by měli experti fungovat, když se na ně novináři obracejí, a oni nemají data?

Měli by žádat ta data. Anebo novináře posílat za věštci, protože bez dat se nejedná o vědeckou otázku. Ke smysluplným inferencím bychom potřebovali u každého testovaného člověka znát aspoň pohlaví, věk, přibližné bydliště, nějaké identifikační číslo kvůli identifikaci opakovaných testů. A vědět, kdy, kým a proč byl k testu indikován, kdy a kde byl test proveden a jestli ten člověk měl symptomy. Minimum, které by umožňovalo vidět, že se dívám na osmnáctý re-test toho samého člověka. Testovací místa přitom identitu lidí znají, takže není problém data anonymizovat a zveřejnit. Kdyby vláda zvládla aspoň předložit data, objevila by se spousta lidí, kteří by na nich testovali modely – a půlka práce by byla najednou hotová. Pak bychom mohli fungovat jako společnost jednadvacátého století, která se rozhoduje na základě dat místo emocí.

Ohodnoťte článek

-
5
+

Sdílejte

Diskutujte (2)

Vstoupit do diskuze
Vojtěch Pišl

Vojtěch Pišl

Vojtěch Pišl píše a překládá o vědách, jejichž název má aspoň deset slabik, zejména pokud se točí kolem mozku, myšlení, psychologie, neurověd, medicíny… nejraději má psychoneuroimunologii. Ve volném čase... Více

Související témata

koronavirusmatematický modelmatematikavěda

Aktuální číslo časopisu

Předplatné časopisu Finmag

Věda je byznys –⁠ byznys je věda

Koupit nejnovější číslo