Problém začíná u otázek, které si klademe

    Statistika pomáhá řešit problémy z mnoha oborů, jen je třeba analyzovat adekvátní data, volit správné metody a dobře interpretovat výsledky, říká předseda České statistické společnosti Ondřej Vencálek.

    Jaké cíle má a jaké úkoly plní Česká statistická společnost?

    Posláním České statistické společnosti je podporovat rozvoj statistiky. Konkrétně jde zejména o organizaci různých odborných akcí, konferencí, seminářů a o publikační činnost. Vydáváme pravidelně informační bulletin a příležitostně různé sborníky. Další formou podpory jsou stipendia, která udělujeme mladým či zasloužilým členům společnosti. Ti mohou tyto peníze využít na svou vědeckou činnost nebo třeba k úhradě nákladů účasti na nějaké konferenci.

    Co členství v ČStS členům přináší?

    Hezky to před lety shrnul jeden ze zakladatelů společnosti Josef Machek, když v parafrázi na Karla Poláčka napsal: „My hoši, co spolu mluvíme, jsme spolčeni v České statistické společnosti, která nám připravuje mnohé zajímavé zážitky.“ V tom je řečeno všechno. Všichni jsme členy společenství lidí se zájmem o jeden obor a vzájemná setkání a diskuze nás odborně obohacují. To bych řekl, že není málo.

    Mgr. Ondřej Vencálek, Ph.D.

    Vystudoval obor pravděpodobnost a matematická statistika na Matematicko-fyzikální fakultě Univerzity Karlovy, kde následně absolvoval i studium doktorské, které ukončil disertací z oblasti neparametrické statistiky a klasifikace. Pracoval v oddělení biostatistiky Státního zdravotního ústavu a od roku 2009 působí na Univerzitě Palackého v Olomouci. Předsedou České statistické společnosti je od roku 2019.

    Zmínil jste vědeckou činnost. Co se dá ve statistice ještě nového vyzkoumat?

    Mluvíme-li o statistice jako o vědě, zabýváme se matematickou statistikou a zkoumáním metod. A v této oblasti přicházejí stále nové náměty a výzvy. V posledních letech jsou to zejména daleko rozsáhlejší datové soubory označované moderním termínem big data. Pro jejich analýzu je třeba hledat nové postupy. Dalším aktuálním tématem je analýza funkcionálních dat. Klasická statistika pracuje s číselnými údaji a zkoumá, jak pravděpodobné jsou různé hodnoty. Když čísla nahradíme funkcemi, dostáváme se k rozdělení pravděpodobnosti funkcí, kterému se teď výzkumníci ve statistice docela dost věnují.

    Vy sám se také zabýváte statistickou vědou?

    Já osobně se v teoretické rovině zabývám neparametrickou statistikou v mnohorozměrném případě. Ve statistice se často pracuje s takzvaným normálním rozdělením, které výrazně zjednodušuje další analýzy. Jenže normální rozdělení nemusí být vždycky to nejvhodnější, a statistici se proto snažili a stále snaží vymyslet něco obecnějšího. Jednou z cest jsou neparametrické metody.

    Jak rychle se dostávají výsledky statistického výzkumu do běžné praxe?

    Pokud přichází požadavek z praxe, například když je výzkum motivován potřebou analýzy rozsáhlých dat, jde to poměrně rychle. Ovšem v oblastech, kde si lidé vystačí s klasickými metodami, je velmi těžké něco nového prosadit, byť je to lepší a přináší to přesnější výsledky. Obvykle to totiž znamená náročnější proces zpracování.

    Loni v únoru byla v rámci ČStS založena odborná skupina statistiků k epidemii covid-19. Jaké plnila úkoly a jakých výsledků dosáhla?

    Skupinu jsme založili proto, že nás zajímaly odpovědi na otázky, které jsme považovali za důležité, a také jsme chtěli upozornit na skutečnost, že mnoho výzkumů spojených s covidem a řada interpretací jejich výsledků jsou špatně. Dnes musím přiznat, že výsledky naší práce nejsou úplně uspokojivé. ČStS sice má zástupce v poradním orgánu ministra zdravotnictví, ale často mám pocit, že házíme hrách na zeď. Bohužel, pořád dochází k tomu, že odpovědní lidé zveřejňují tvrzení, která odporují datům a ignorují poznání založené na datech. Myslím, že nepřesných, špatných nebo přímo zavádějících výroků v souvislosti s covidem bylo tolik, že to jednou vydá na učebnici.

    A stále existuje spousta nezodpovězených otázek. Mluví se hlavně o efektivitě očkování a o bezpečnosti očkování, tedy možných vedlejších účincích, ale kromě toho by bylo dobré vědět víc o tom, nakolik nás chrání imunita získaná proděláním nemoci nebo jaká je efektivita nefarmaceutických opatření, mezi která patří nošení roušek a respirátorů, zavírání škol, omezování přístupu a podobně.

    Vyvíjíte v tomto směru ještě nějaké aktivity?

    Velká část lidí z odborné skupiny přešla do Sdružení mikrobiologů, imunologů a statistiků (smis-lab.cz), kde se ve spolupráci s dalšími odborníky snaží hledat odpovědi na uvedené otázky a napomáhat k tomu, aby různá rozhodnutí a opatření vycházela z reálných a ověřených dat.

    Troufl byste si předpovědět, jak bude vypadat situace s covidem v Česku na konci letošního roku?

    Já jsem shodou okolností před lety psal svou diplomovou práci o chřipce a o akutních respiračních infekcích. Z dat naprosto jasně vyplývalo, že respirační infekce jsou sezonní a že nastupují vždy se začátkem školního roku. Vzhledem k tomu, že covid-19 také patří mezi akutní respirační onemocnění, se dá předpokládat, že se bude chovat sezonně, což pozorování za poslední dva roky potvrdila. Velmi bych se proto divil, kdyby letos podzimní vlna nepřišla. To je samozřejmě velmi obecné konstatování, určitě by se hodila konkrétnější predikce, kdy přesně podzimní vlna bude, kolik bude nemocných, kolik lidí zemře… V tom jsem ale skeptický, protože jsem neviděl ještě žádný model, který by dokázal dát dostatečně přesné údaje na takto dlouho dopředu. My umíme dobře predikovat v okamžiku, kdy se vlna už někde rozběhne. Například podle dat z Británie a z Dánska bylo už na konci loňského roku možné velmi přesně odhadnout nástup a průběh omikronové vlny, která nás postihla letos v únoru.

    Jak bychom se tedy měli na podzimní vlnu připravit?

    To není otázka na statistika. Opatření jsou záležitostí spíš politickou a já mám pocit, že oficiální velikost pandemie do značné míry odpovídá tomu, jaká je politická vůle učinit nějaká opatření. Skutečný počet nakažených a počet pozitivních PCR testů jsou totiž rozdílné věci. Pokud testem podmíníte vstup na pracoviště nebo návštěvu restaurace, bude se testovat víc lidí a počet potvrzených případů samozřejmě vzroste. Když ale test na nic nepotřebujete a ještě si ho musíte hradit sami, bude pozitivních samozřejmě málo. Nastavení podmínek silně ovlivňuje pozorované výsledky. Takže když na podzim bude politická vůle k tomu, aby vlna epidemie byla velká, bude se hodně testovat a čísla budou vysoká.

    Jaké nejčastější chyby se dělají při interpretaci statistických dat?

    Problém začíná už u otázek, které si klademe. Například chceme vědět, jestli určitá vakcína je účinná. To je otázka příliš zjednodušující, protože předpokládá, že efekt vakcíny je nějaká pevně daná konstanta. Ale účinnost vakcíny se může lišit podle toho, kdo se očkuje, jak je starý, jaký je jeho zdravotní stav, jestli už třeba nemoc prodělal… Jinými slovy, v realitě existuje celá řada interakcí, které položením jednoduché otázky zcela opomíjíme. To souvisí s naší potřebou mít věci přehledné a snadno srozumitelné. Širší veřejnost není zvyklá na práci s nejistotou, která nám statistikům připadá zcela elementární. My jsme si na ni už tak zvykli, že se divíme, proč jiným dělá problémy.

    Chyby děláme i při vyhodnocování účinnosti vakcín. My statistici víme, jak je důležité srovnávat srovnatelné. Porovnávám-li např. míru úmrtnosti ve skupinách očkovaných a neočkovaných a ty dvě skupiny se liší ve věkové struktuře, tak nemůžu tvrdit, že pozorovaná rozdílnost v úmrtnosti je daná vakcínou. Proto se věk vždy do analýzy zahrnuje. Ale co další odlišnosti? Rozhodnutí nechat se naočkovat jistě souvisí se zdravotním stavem. A ten už do analýz těžko zahrneme, i když bychom měli. U současných dat týkajících se efektivity vakcín vidíme velký rozdíl mezi očkovanými a neočkovanými v úmrtnosti z jiných příčin než kvůli covidu. To znamená, že tyto skupiny se kromě vakcinačního statusu liší ještě v něčem dalším. Ten skrytý faktor, takzvaný confounder, zkresluje výsledky analýzy efektivity vakcín. Někdy je proto lepší neprovádět analýzu, jejíž výsledky nebudou relevantní, a třeba více tlačit na poskytnutí dat, která by relevantní analýzu umožnila.

    Mnoho lidí dělá ještě daleko triviálnější chybu, a sice že sleduje výskyt události jen v jedné skupině a nesrovnává ho s výskytem v kontrolní skupině. Když vás po očkování bolí hlava, začnete mít podezření, že to zapříčinilo očkování. Tak začnete pátrat a objevíte spoustu dalších lidí, které po očkování bolí hlava. Chybný závěr je, že očkování ve velké míře způsobuje bolest hlavy. Správně by bylo zjistit, jak častý je výskyt bolesti hlavy ve skupině očkovaných a ve skupině neočkovaných, a tyto dva údaje porovnat. Teprve při objevení významného rozdílu můžeme usuzovat na souvislost s očkováním.

    Příklad s bolením hlavy ukazuje na další častou chybu. Lidé mají tendenci hledat mezi statistickými jevy příčinnou souvislost. Že vakcinace je příčinou bolení hlavy. Ale už v základním kurzu statistiky studenty učíme, že korelace není kauzalita. To, že dva jevy spolu souvisejí, nemusí znamenat, že jeden je zapříčiněn tím druhým. V praxi se však mnohokrát setkáváme s tím, že se dává kauzální vysvětlení něčemu, co je přinejmenším sporné. Možná proto, že se to někomu prostě hodí.

    Nemáte obavu z toho, že vaše upozorňování na chyby a nepřesnosti může nahrávat popíračům čehokoliv a vyznavačům konspiračních teorií, protože vlastně nic není pravda a všichni lžou?

    Konspirátoři byli vždycky a vždycky budou, s tím nic neuděláte. Mojí rolí není zachránit svět, mojí rolí je hledat pravdu. Věda je postavena na tom, že pochybujeme, ptáme se, jak věci vlastně fungují a zda je to skutečně tak, jak si myslíme nebo jak to tvrdí autority. Pochybnost je součástí vědy. Kdybychom zakázali se ptát, bude to špatně. Určitě je užitečné některá obecně přijímaná tvrzení znovu ověřovat a zkoumat, jestli to třeba není jinak.

    Myslím, že termíny jako konspirace, fake news nebo dezinformace jsou dnes zbytečně nadužívané a že ve snaze je potírat dochází k věcem, které by se stávat neměly. Třeba na webových stránkách Ministerstva zdravotnictví byl zveřejněn seznam dezinformací, který se neustále měnil a upravoval, a nakonec po řadě upozornění, že údaje na něm mnohdy neodpovídají zjištěným datům, úplně zmizel.

    Jak Česká statistická společnost spolupracuje s Českým statistickým úřadem?

    ČSÚ je pro nás skvělý partner a dobré vztahy s ním jsou pro nás velmi důležité. Spolupracujeme na několika úrovních. Ta první – formální – znamená, že v budově ČSÚ máme oficiální sídlo a využíváme zde zázemí pro naše schůze a jiné akce. V reprostředisku ČSÚ se také tiskne náš informační bulletin. Vedení ČSÚ navštěvuje naše akce a my se zúčastňujeme akcí pořádaných ČSÚ. Další úrovní jsou pracovně osobní kontakty s jednotlivými pracovníky či odbory. Já například už řadu let vozím na exkurzi do Prahy studenty z Olomouce v rámci předmětu Výběrová šetření. Odborníci z ČSÚ nám vždycky připraví prezentaci, jaká výběrová šetření provádějí, a přiblíží studentům praktickou stránku věci. Podobně spolupracují s lidmi z úřadu i další naši členové, zejména ti z VŠE jsou v kontaktu jistě ještě mnohem častěji.

    Jak byste zhodnotil úroveň vzdělávání v oboru statistiky v Česku?

    Otázka je, jak kvalitu vzdělávání měřit. Když se podíváte na statistickou gramotnost populace, uvidíte, že máme velké rezervy. Na druhé straně zde působí poměrně dost institucí, které vychovávají velmi kvalitní odborníky.

    Čím byste motivoval maturanty, aby začali studovat statistiku?

    Když studenti středních škol uvažují o své budoucnosti, většinou by si chtěli zvolit obor, který je bude bavit, který je uplatnitelný v praxi a který je dobře finančně ohodnocený. To první kritérium zohledňuji tím, že oslovuji studenty, které baví matematika. Otázku uplatnitelnosti zodpovím nepřímo tím, že vysvětluji, co to vlastně statistika je. Lidé o tomto oboru mají dost často jen vágní představu, myslí si, že se jedná převážně o nudnou evidenci. Ale statistika je daleko víc, jak už jsem uvedl, je to hlavně hledání odpovědí na otázky, které nás zajímají. Mám se nechat naočkovat, nebo nemám? Jako představitel banky se ptám: Bude žadatel o hypotéku bez problémů splácet, nebo nebude? Jak to bude ve skutečnosti, dopředu nikdy nevíme, odpovědi jsou zatíženy určitou nejistotou a úkolem statistiky je najít z historických dat důležité charakteristiky, které tu nejistotu snižují. Statistická analýza dat nám pomáhá pochopit, jak funguje svět. A ta prvotní otázka může přijít z libovolného oboru. To mě na statistice strašně baví, že se v jednu chvíli domlouvám s doktorem o účinnosti vakcín a příští den mám schůzku s člověkem, který navrhuje čerpadla, a řešíme účinnost čerpadel. Pestrost aplikací je fascinující a tomu odpovídá i uplatnitelnost na trhu práce. Odborníci, kteří umějí analyzovat data, jsou velmi žádaní v mnoha oborech. A to je zároveň i odpověď na třetí kritérium – statistici bývají zaměstnáni i na velmi dobře placených pozicích.

    To vypadá tak, jako by statistici byli odborníci na všechno…

    Statistik vždycky potřebuje partnera, odborníka z odvětví, jehož fungování zkoumáme. My umíme analýzu dat, ale data nejsou jen holá čísla. K číslu musí být nějaká historie, jak bylo získáno, co vyjadřuje, k čemu se váže. Práce statistika proto vždycky začíná u kafe, abychom se v diskuzi s odborníky přiučili a poznali, co vlastně potřebujeme zjistit a jaká data máme k dispozici. Někdy dojdeme i k tomu, že je třeba trochu poopravit otázku, na kterou jsme původně měli najít odpověď.

    Používáte statistiku ve svém osobním životě?

    Ve smyslu evidence, že bych si dělal čárky, kolikrát jsem jel do práce vlakem, ne. Spíš je to způsob uvažování a vnímání čísel. Média na nás denně chrlí spoustu čísel a já vždycky, když nějaké uslyším, mám potřebu zamyslet se, kde se vzalo, jak na něj přišli a co vlastně znamená. V tom mě statistika ovlivňuje.

    Rozhovor vyšel v květnovém čísle časopisu Statistika&My.

    Webové stránky České statistické společnosti najdete zde.