Jak odolávat statistikám

Zatím jsem vás oslovoval spíš jako byste byli piráti, kteří se chtějí naučit ještě lepším kejklům s mečem. V závěrečné kapitole tento literární styl opustím. Postavím se tváří v tvář tomu, co je, doufám, ukryto pod povrchem této knihy a co je jejím hlavním smyslem: zkusím objasnit, jak se podívat podezřelé statistice do očí a jak ji umlčet; a – což je stejně důležité – jak v této divočině podfuků, kterým byly z velké části věnovány předcházející kapitoly, rozpoznat zdravá a použitelná data.

Statistické informace, se kterými se setkáte, nemohou být prověřovány se stejnou spolehlivostí, s jakou se provádí chemická analýza nebo postupy v testovacích laboratořích. Můžete si ale do takové zprávy rýpnout pěti jednoduchými otázkami. Když na ně odpovíte, vyhnete se riziku, že byste uvěřili něčemu, co je ve skutečnosti úplně jinak.

Kdo to říká?

Především se poohlédneme, jaké zájmy v tom hrají roli – laboratoř, která má něco přezkoušet v zájmu teorie, reputace nebo za poplatek; noviny, které mají zájem o dobrý příběh; dělníci nebo ředitelství firmy, když je v sázce úroveň mezd.

Poohlédněte se po úmyslném zkreslení. Projeví se buď přímo jako nesprávný údaj nebo to může být údaj nejednoznačný, který poslouží stejně, ale je nenapadnutelný. Může to být výběr příznivých dat a potlačení nepříznivých. Měrné jednotky mohou být posunuty, jako v případě, kdy se použije jeden rok pro jedno srovnání a pak se přejde k jinému, příznivějšímu roku pro druhé srovnání. Může být použito nesprávné měření: aritmetický průměr tam, kde by byl korektnější median (možná až příliš korektní), přičemž lumpárna se bude skrývat za obecným slovem „průměr“, který nebude dále upřesněn.

Podívejte se pozorně po zájmech, které jsou prosazovány neúmyslně. To je mnohdy ještě nebezpečnější. Ovlivnilo to grafy a prognózy mnoha statistiků a ekonomů v roce 1928 a vytvářelo to pozoruhodné věci. Trhliny v ekonomické struktuře se vesele přehlížely a shromažďovaly se všechny možné, statisticky podložené důkazy toho, že jsme nastoupili cestu prosperity.

Bude to chtít nejméně druhý pohled, aby se zjistilo „kdo-to-říká“. Ptáme-li se „kdo?“, pak to může být nějaké „Superjméno“, jak by to nejspíš nazval spisovatel Stephen Potter, autor knihy Domýšlivá nadřazenost. Cokoliv, co je cítit lékařskou profesí, má superjméno. Vědecké laboratoře mají superjména, stejně jako vysoké školy, zejména univerzity a zejména ty, které vynikají v technických oborech.  O pár kapitol zpátky najdete informaci, že vyšší vzdělání snižuje šance dívek na vdavky. Autor zde velmi dobře využil superjméno Cornellu, této proslulé univerzity. Všimněte si prosím, že zatímco data pocházela z Cornellu, závěry byly zcela záležitostí autora. Ale superjméno vám pomůže odnést si mylný dojem, že „Cornellova univerzita o něčem říká, že …“

Když je někde uvedeno superjméno, ujistěte se, že ta autorita stojí skutečně za danou informací, a ne jenom někde poblíž.

Možná jste četli hrdé prohlášení chicagského Journal of Commerce. Tato publikace provedla průzkum k problematice zvyšování a snižování cen. Ze 169 korporací, které v průzkumu odpověděly, dvě třetiny prohlásily, že vstřebaly zvýšení cen, způsobené Korejskou válkou. „Průzkum ukazuje,“ uvedl Journal (vždycky zpozorněte, když narazíte na tato slova!), „že korporace udělaly přesný opak toho, z čeho je obviňovali nepřátelé amerického obchodního systému. „To je ta správná chvíle na otázku „Kdo to říká?“, neboť Journal of Commerce může být vnímán jako zájmová strana. Je to také správná chvíle na položení naší druhé testovací otázky:

Jak to ví?

Ukázalo se, že Journal obeslal svým dotazníkem 1.200 velkých společností. Jen 14 procent odpovědělo. Osmdesát šest procent nemělo zájem říkat veřejně cokoliv o tom, zda ceny zvyšovali nebo snižovali.

Journal si toho evidentně nevšimnul, ale faktem je, že tady nebylo moc čím se chlubit.  Stalo se toto: Z 1.200 dotázaných společností jich 9 procent řeklo, že ceny nezvýšily, 5 procent řeklo, že je zvýšily a 86 procent neřeklo nic. Ti, kteří odpověděli, vytvořili vzorek, ze kterého lze usuzovat na určité zájmy, na podjatost.

Dávejte si pozor na podjaté vzorky, tedy na takové, které byly vybrány nevhodně, nebo takové – jako v tomto případě – které se vybraly samy. Položte si otázku, se kterou jsme pracovali v jedné z předešlých kapitol: Je tato korelace dostatečně silná? Je vyvozena na základě dostatečně velkého počtu pozorování, aby byla statisticky významná?  Jako náhodný čtenář nemůžete samozřejmě uplatnit testování významnosti nebo dojít k přesným závěrům, pokud jde o přiměřenost vzorku. Většinou vidíte jen to, co je napsáno.  Přesto budete pravděpodobně schopni na první pohled – na první, dostatečně dlouhý pohled – říct, že statistický soubor možná nebyl dostatečně rozsáhlý, aby výsledek přesvědčil kohokoliv soudného o čemkoliv.

Co chybí?

Ne vždy se dozvíte, jak byl soubor velký. Chybí-li tento údaj a zvlášť, pokud je zdroj informací na celé věci nějak zainteresovaný, je to dostatečný důvod, aby člověk celou takovou informaci považoval za podezřelou. Podobně v případech, kdy se konstatuje nějaká korelace a neuvádějí se přesnější údaje (výše korelačního koeficientu, počet pozorování, hladina významnosti, statistická odchylka). Takové zprávy nelze brát příliš vážně.

Dávejte si pozor na slovo „průměr“, není-li uvedeno, o jaký typ výpočtu se jedná a zvlášť, pokud jde tématiku, u níž můžete předpokládat, že by mezi aritmetickým průměrem a mediánem byl podstatný rozdíl.

Mnohé údaje ztrácejí význam, protože chybí srovnání. Článek v časopise Look říká v souvislosti s debilitou, že „jedna studie ukazuje, že ze 2.800 případů takto narozených dětí, polovina matek byla starších než 35 let.“ Abyste se z toho něco dozvěděli, potřebujete vědět, v jakém věku se celkově ženy stávají matkami. Jen málokdo z nás nosí takové věci v hlavě.

Tady je výňatek z rubriky „Psaní z Londýna“ časopisu New Yorker z 31. ledna 1953.

Ministerstvo zdravotnictví nedávno zveřejnilo údaje, ukazující že v týdnu, kdy panovaly velké mlhy, vyskočila míra úmrtnosti ve Velkém Londýně o 28 procent. To bylo šokující pro veřejnost, zvyklou vnímat britské odporné klimatické jevy spíš jako nepříjemné než jako vražedné … Mimořádné smrtící účinky těchto zimních pohrom …

Ale nakolik byly ty pohromy smrtící?  Bylo opravdu mimořádné, že úmrtnost tak stoupla nad normální míru v jednom týdnu? Všechny tyto věci se mění. A co následující týdny? Neklesla úmrtnost pod průměr což by naznačovalo, že mlha zabila lidi, kteří by v krátké době zemřeli tak jako tak? Zjištění vypadá působivě, ale nepřítomnost dalších údajů mu odebírá velkou část smyslu.

Někdy jsou dána procenta a výchozí čísla chybí, a to může být také záludné. Dávno, když Univerzita Johna Hopkinse právě začala přijímat studentky, oznámil někdo, kdo nebyl velkým přítelem koedukace, velkou senzaci: 33,3 procent žen na Hopkinsově univerzitě se vdalo za zdejší pedagogy! Základní čísla poskytla ale jasnější obraz. V té době zde byly zapsány tři ženy a jedna z nich se vdala za někoho z fakulty.

Před pár lety vybrala Bostonská obchodní komora své Úspěšné americké ženy. Napsali, že těch šestnáct vybraných, které byly také v Who’s Who, mělo dohromady celkem „60 akademických titulů a 18 dětí.“ To zní jako informativní obrázek o této skupině, dokud nezjistíte, že mezi těmi ženami byla děkanka Virginia Gildersleeveová a paní Lillian M. Gilbrethová. Tyto dvě měly plnou polovinu všech těch akademických titulů. A paní Gilbrethová dodala samozřejmě dvě třetiny všech těch dětí.

Jedna společnost byla schopna prohlásit, že její akcie vlastní 3.003 osoby, které mají v průměru každý 660 akcií. Byla to pravda, Pravdou také bylo, že z celkových dvou milionů akcií dané společnosti drželi tři muži celé tři čtvrtiny a tři tisíce osob drželo tu zbývající třetinu.

Když vám někdo předloží index, musíte se podívat, jaká informace tam chybí. Může chybět základ, nebo může být základ vybraný tak, aby poskytnul deformovaný obrázek.  Národní organizace práce jednou zveřejnila zprávu, že indexy zisků a výroby rostly po depresi daleko rychleji než index mezd. Vypadalo to jako silný argument pro růst mezd, dokud někdo nevytáhnul chybějící čísla. Z nich bylo patrné, že zisky musely růst v procentech rychleji než mzdy jednoduše proto, protože zisky dosáhly v depresi nižší úrovně a měly tedy nižší základ.

Někdy také není zmíněn faktor, který způsobil, že daná změna nastala. Toto opomenutí vytváří prostor k doměnce, že důvod je jiný, mnohem žádanější. V jednom roce byla publikována čísla, která se snažila dokázat, že obchody stoupají. Dokazovalo se to tím, že maloobchodní prodej byl letos v dubnu vyšší než v dubnu loňského roku. Chyběla ovšem poznámka, že Velikonoce byly loni v březnu, kdežto v tomto roce až v dubnu.

Zpráva o velkém počtu úmrtí na rakovinu za poslední čtvrtstoletí je zavádějící, pokud nevíte, jak silně je tato skutečnost ovlivněna vedlejšími faktory, jako jsou tyto: rakovina se nyní uvádí jako příčina úmrtí v případech, ve kterých se dříve uvádělo „příčina neznámá“; daleko častěji se provádějí pitvy, které poskytují přesnější diagnózy; hlášení a sestavování lékařských statistik je mnohem ucelenější; a stále více lidí dosahuje věku, ve kterém rakovina přichází nejčastěji. A když se díváte na celkový počet úmrtí (nikoliv na míru úmrtnosti), nepřehlédněte fakt, že dnes je víc lidí, než bylo dříve.

Nezměnil někdo předmět?

Než začnete zkoumat statistiku, dejte si pozor na ten moment, kde zpráva přechází od výchozích čísel k závěrům. Velmi často se o jedné věci mluví jako o druhé.

Jak už bylo naznačeno, víc nahlášených případů nemoci nemusí být vždy to samé, jako víc případů nemoci. Volební vítězství kandidáta v průzkumech se nemusí vždy projevit i ve vlastním hlasování.  Preference článků o světových událostech, vyjádřené „průřezem“ čtenářů daného časopisu, není konečným potvrzením, že by lidé takové články četli, kdyby byly publikovány.

Počet případů encefalitidy, hlášených ve středním údolí Kalifornie v roce 1952 byl trojnásobkem údaje za předchozí rok, který byl rokem nejhorším. Mnozí vyděšení obyvatelé posílali své děti pryč. Když se ale provedl celý výpočet, ukázalo se, že přírůstek úmrtí na spavou nemoc nebyl velký. Ve skutečnosti se nestalo nic jiného, než že přišel velký počet lidí ze státního a federálního zdravotnictví a pustili se do řešení vleklého problému; v důsledku jejich úsilí bylo hlášeno velké množství méně závažných případů, které by jinak byly přehlédnuty a možná by ani nebyly zjištěny.

Všechno to připomíná způsob, jakým jednou dva newyorští novináři, Lincoln Steffens a Jacob A. Riis, vytvořili vlnu zločinnosti. Kriminalita dosáhla v novinách obrovských rozměrů. Počtem případů, prostorem, který jim byl věnován i velikostí titulků. Veřejnost tedy žádala zásah. Theodor Roosevelt, jako prezident reformovaného Policejního prezidia, byl vážně rozčilený. Ukončil tuto vlnu kriminality prostě tím, že požádal Steffense a Riise, aby dali pokoj. Celý humbuk vznikl jednoduše tak, že reportéři, po vzoru těchto dvou, začali závodit, kdo objeví největší loupež a nevím co ještě. Oficiální zpráva policie ukazovala, že k žádnému zvýšení kriminality nedošlo.

„Brit mužského pohlaví ve věku nad 5 let se vykoupe v horké lázni v zimě v průměru 1,7krát za týden a v létě 2,1krát,“ říká novinový článek. „Britská žena se koupe v zimě v průměru 1,5krát za týden a v létě 2,0krát. Zdrojem je průzkum horké vody Ministerstva práce, provedený v „6.000 typických britských domácností.“ Vzorek byl reprezentativní, říká se zde a zdá se být i celkem přiměřeně velký, aby opravňoval závěr, obsažený v humorném titulku sanfranciského deníku Chronicle’s: BRITŠTÍ MUŽI SE KOUPOU VÍC NEŽ BRITSKÉ ŽENY.

Čísla by byla poučnější, kdyby zde byl nějaký náznak, zda se jedná o aritmetické průměry nebo o mediany. Největší slabinou ovšem je, že předmět zkoumání byl jiný, než je uvedeno. Ministerstvo ve skutečnosti zjistilo pouze, jakou frekvenci koupání tito lidé uvedli, ne však, jak často to opravdu dělají. Pokud je předmět zkoumání tak intimní, jako tento a když navíc jde o britskou tradici koupání, nemusí být to, co se říká, vůbec shodné s tím, co se opravdu dělá. Britští muži se mohou, ale také nemusejí koupat častěji než britské ženy; všechno, co se dá s jistotou usoudit je, že říkají, že se koupou častěji.

Tady je několik dalších příkladů změněných předmětů zkoumání, na které je nutno si dát pozor.

Hnutí „Zpět k farmářství“ se zviditelnilo, když sčítání lidu ukázalo, že v roce 1935 bylo o půl milionu více farem než pět let předtím. Ale ta dvě sčítání nemluvila o stejné věci. Změnila se definice farmy, použitá Statistickým úřadem; zahrnula nejméně 300.000 farem, které by podle definice z roku 1930 nebyly bývaly zahrnuty.

Když jsou čísla založena na tom, co lidé říkají – dokonce i o věcech, které se zdají být objektivními fakty – vynoří se zvláštní věci. Zprávy ze sčítání lidu například ukázaly, že je víc lidí ve věku 35 let, než ve věku buď 34 let nebo 36 let. Tento nepravdivý obraz vzniknul tak, že v rodině často jeden člen informoval o těch druhých a když si nebyl v otázce věku úplně jistý, tak to prostě zaokrouhlil na obvyklý násobek pěti. Existuje způsob, jak se tomu vyhnout: neptat se na věk, ale na datum narození.

„Počet obyvatel“ jedné velké oblasti Číny byl 28 milionů. O pět let později to bylo 105 milionů. Jen velmi malá část tohoto přírůstku byla reálná; velký rozdíl bylo možno vysvětlit jedině tím, že se vzaly v úvahu účely, pro které byla tato dvě sčítání provedena a jak lidé mohli vnímat to, že jsou při té nebo oné příležitosti započítáváni. První sčítání bylo pro účely daní a armády. To druhé kvůli pomoci v hladomoru.

Něco podobného se stalo také ve Spojených státech. Sčítání v roce 1950 zjistilo, že lidí ve věku 65 až 70 let bylo víc než lidí ve věku 55-60 o deset let dříve. Tento rozdíl nebylo možno vysvětlit migrací. Většina toho byla způsobena rozsáhlým falšováním věku u lidí, kteří dychtili inkasovat sociální dávky. Je také možné, že někdo uváděl nižší věk z ješitnosti.

Jiný typ záměny předmětu představuje nářek senátora Williama Langera, že „bychom měli vzít vězně z Alcatrazu a ubytovat ho levněji v hotelu Waldorf-Astoria.“. Tento Severodakoťan se odvolával na dřívější prohlášení, že pečovat o vězně v Alcatrazu stojí osm dolarů denně, což je „sazba za den v dobrém hotelu v San Franciscu.“ Předmět zkoumání byl pokaždé jiný – jednou šlo o celkové náklady (Alcatraz) a podruhé jen o samotnou sazbu za pokoj v hotelu.

Příčina a následek může také vytvořit parádní nesmysl a být jedním ze způsobů, jak se změní předmět, aniž by to tak vypadalo. Změna něčeho současně s něčím je prezentována jako změna něčeho kvůli něčemu. Časopis Electrical World publikoval jednou složený graf v rámci komentáře o tom „Co znamená elektřina pro Ameriku.“ Mohli jste v něm sledovat, že jak přibývalo elektrických koňských síl v továrnách, šplhaly nahoru i průměrné hodinové mzdy. Současně „průměrný počet odpracovaných hodin za týden“, klesal. Všechno to pochopitelně byly dlouhodobé trendy a samozřejmě tu nebyl ani náznak toho, že by jeden jev byl důsledkem druhého.

A pak jsou tady ti, kteří chtějí být v něčem první. Téměř každý může tvrdit, že je v něčem první, pokud nebude příliš přesný v tom, o co jde. Koncem roku 1952 trvaly dvoje noviny na tom, že jsou jedničkami v reklamě na potravinářské obchody. Každé z nich měly svým způsobem pravdu. World-Telegram začal vysvětlovat, že byl první v celoplošné reklamě, což je ten druh, který se objevuje ve všech výtiscích a že to je jediný typ reklamy, který dělají. Jurnal-American trval na tom, že podstatný je počet řádků a že v tom je první on.  Je to ten druh snahy dosáhnout nějakého superlativu, který vede meteorologické reportéry v rozhlase k tomu, že celkem normální den nazvou „nejžhavějším druhým červencem od roku 1949.“

Když zvažujete, zda si půjčit peníze přímo nebo formou nákupu na splátky, zkomplikuje vám změna předmětu situaci – nebude tak snadné porovnat náklady. Ono sice 6 % zní jako 6 %, ale vůbec to nemusí být totéž.

Když si půjčíte 100 dolarů od banky s úrokem 6 % a za rok to splatíte pravidelnými měsíčními splátkami, cena za použití těchto peněz bude kolem 3 dolarů. Ale jiná šestiprocentní půjčka, o které se mnohdy mluví jako o 6 dolarech na 100 dolarů, vás bude stát dvakrát tolik.  Je to způsob, jak se většinou nabízejí půjčky na auta. Je to velmi zákeřné.

Háček je v tom, že těch 100 dolarů nemáte po celý rok. Na konci šestého měsíce jste už polovinu splatili. Když je vám účtováno za 100 dolarů 6 dolarů neboli 6 % z obnosu, ve skutečnosti platíte úrok téměř 12 %.

Snad ještě horší bylo to, co se stalo některým nepozorným zákazníkům, kteří se v letech 1952 a 1953 zapojili do systému pravidelných dodávek mražených potravin.  Byla jim nabízena cena zhruba mezi 6 až 12 procenty. Znělo to jako úroky, ale úroky to nebyly. Byl to údaj „z dolaru“ a navíc se nejednalo o rok, ale většinou o 6 měsíců. Takže cena 12 dolarů za půjčení 100 dolarů, které se musely splatit v pravidelných splátkách během půl roku, bylo najednou zhruba 48 % skutečného úroku. Není proto divu, že tolik zákazníků nedodrželo splátky a tolik stravovacích systémů selhalo.

Někdy se ke změně předmětu použije sémantický přístup. Tady je příklad z časopisu Business Week.

Účetní se rozhodli, že slovo „přebytek“ je odporné. Navrhli, aby se vyřadilo z bilancí společností. Výbor pro účetné postupy Amerického institutu účetních řekl: … Používejte takové popisné pojmy, jako „nerozdělený zisk“ nebo „zhodnocení fixních aktiv.“

Tento příklad je z novinového článku, věnovaného rekordním příjmům společnosti Standard Oil a jejich čistému zisku milion dolarů denně.

Ředitelé by možná někdy měli přemýšlet o rozštěpení akcie, neboť by bylo výhodné … kdyby zisky na akcii nevypadaly tak vysoké …

Dává to smysl?

Otázka „Dává to smysl?“ často vykáže statistiku do patřičných mezí, když je celý ten blábol založen na neprokázaném předpokladu. Možná znáte rovnice čitelnosti Rudolfa Flesche. Její význam spočívá v měření toho, jak snadno se dá přečíst kus textu, a to podle tak jednoduchých a objektivních věcí, jako je délka slov a vět. Je to přitažlivá myšlenka, jako ostatně všechny pokusy převézt nezměřitelné vlastnosti na čísla a posuzovat je prostřednictvím aritmetiky. Bylo to přitažlivé zejména pro ty, kdo zaměstnávají spisovatele, tedy například pro vydavatele novin. Pro samotné spisovatele to napak moc přitažlivé nebylo. V těchto rovnicích se předpokládalo, že čtivost textu určují takové věci, jako je délka slov. To by se však, abych byl trochu kousavý, muselo teprve prokázat.

Muž jménem Robert A. Dufour vyzkoušel Fleschovy rovnice na literatuře, kterou považoval za čtivou. Ukázalo se, že „Legenda o Ospalé díře“ je ke čtení o polovinu těžší než Platonova Republika. Román Sinclaira Lewise Manželství soudce Timberlanea bylo hodnoceno jako složitější než pojednání Jacquese Maritaina „Duchovní hodnota umění.“ Vhodný příklad.

Mnohé statistiky jsou falešné už na první pohled. Projdou jen díky kouzlu čísel, která zatemní zdravý rozum. Leonard Engel v článku časopisu Harper’s sepsal některé perličky z oboru lékařství.

Příkladem je kalkulace jednoho známého urologa, že ve Spojených státech je 8 milionů případů rakoviny prostaty – což by znamenalo, že na každého muže v ohrožené věkové skupině připadá 1,1 prostatických žláz s rakovinou! Další je odhad prominentního neurologa, že každý dvanáctý Američan trpí migrénou; protože ale migréna je příčinou třetiny všech případů chronických bolestí hlavy, znamenalo by to, že tyto nesnesitelné bolesti hlavy má čtvrtina z nás. Nebo se často říká, že se vyskytuje 250.000 případů roztroušené sklerózy; data o úmrtnosti naznačují, že případů této paralytické nemoci nemůže být v zemi víc než 30 až 40 tisíc.

Projednávání novely zákona o sociálním zabezpečení bylo doprovázeno různými formami jednoho prohlášení, které dávalo smysl jen do té doby, dokud se na ně člověk nepodíval blíže. Ten argument vypadal asi takto: V plánu sociálního zabezpečení se počítá s odchodem do důchodu v 65 letech, ale pravděpodobná délka života je jen 63 let. Takže celý plán sociálního zabezpečení je klam a podvod, neboť se ho prakticky nikdo nedožije.

Abyste to vyvrátili, stačí se rozhlédnout po lidech, které znáte. Základní omyl spočívá ale v tom, že ten údaj o pravděpodobné délce života se vztahuje k době narození. Zhruba polovina narozených dětí může tedy očekávat, že budou žít déle. To číslo, mimochodem, pochází z posledních oficiálních tabulek úmrtnosti a platilo pro období let 1939-1941. Aktualizovaný odhad je opravuje na 65+. Možná z toho vyplyne nový a stejně hloupý argument, že prakticky každý, kdo dnes žije, se dožije 65 let.

Poválečné plánovaní jedné velké společnosti na výrobu elektrických zařízení běželo jako po másle. Bylo založeno na očekávaném poklesu porodnosti, tedy na údaji, který byl dlouhou dobu pokládán za zaručený. Plány kladly důraz na přístroje s menší kapacitou, na ledničky, vhodné svou velikostí do garsónek. Pak se v jednom z těch plánovačů probudil zdravý rozum: Dlouho vycházel ze svých grafů a tabulek, až mu došlo, že on i jeho spolupracovníci i jeho přátelé, jeho sousedi a až na pár výjimek i jeho bývalí spolužáci, buď mají tři až čtyři děti, nebo je plánují mít. Tak spustili poněkud objektivnější průzkum – a krátce nato přesunula společnost svůj důraz velmi výnosně na modely velkých rodin.

Další, co odporuje zdravému rozumu, je impozantně přesné číslo.  Studie, o které psaly noviny v New York City oznamovala, že pracující žena, která se stará o rodinou by měla dostat 40,13 dolarů týdně jako přiměřenou podporu. Kdokoliv, kdo při četbě svých novin neztratil smysl pro logiku jistě pochopí, že náklady na udržení těla a duše pohromadě nemohou být propočítány do posledního centu. Je tu ale velké pokušení; „40,13 dolarů“ zní daleko zasvěceněji než „kolem 40 dolarů.“

Americký výbor petrolejářského průmyslu vydal před několika lety zprávu, že průměrná roční daňová zátěž automobilu je 51,13 dolaru. Máte plné právo se na takovou zprávu dívat se stejným podezřením.

Extrapolace jsou užitečné, zejména pokud jde o předvídání trendů, což je jedna z forem věštění. Když se ale díváme na výpočty nebo na grafy, které z nich byly vytvořeny, je nezbytné si stále pamatovat jednu věc: Trend od minulosti k dnešku může být skutečností, ale budoucí trend není ničím lepším než poučeným odhadem. Předpokládá totiž, že „všechno ostatní je stejné“ a že „současné trendy pokračují.“ Jenomže všechno ostatní tak nějak odmítne zůstat stejným, jinak by byl život vzkutku nudný.

Jako příklad nesmyslu, obsaženého v nekontrolované extrapolaci, zvažte trend televize. Počet přijímačů v amerických domácnostech vzrostl za období let 1947 až 1952 zhruba o 10.000 %.  Promítněte si to na dalších pět let a zjistíte, že by tu brzo bylo pár miliard těchto zařízení neboli – Bože chraň! – 40 přístrojů v každé rodině. Kdybyste byli ještě hloupější, nevyjdete z roku 1947, ale z z některého z dřívějších let televizní historie a můžete stejně spolehlivě „prokázat“, že každá rodina bude mít brzo ne 40, ale 40.000 televizních přijímačů.

Vládní analytik Morris Hansen nazval Gallupovu volební prognózu z roku 1948 „nejpublikovanější statistickou chybou v lidské historii.“ [1] Sklidil za ni všeobecný posměch, přitom to byl ideál přesnosti ve srovnání třeba s některými široce užívanými odhady budoucího počtu obyvatel.  Ještě v roce 1938 zpochybnila prezidentská komise plná odborníků tvrzení, že by počet obyvatel USA mohla někdy dosáhnout 140 milionů; za pouhých 12 let bylo obyvatel dokonce o 12 milionů víc. Existují učebnice, vydané tak nedávno, že se stále ještě používají na univerzitách, a ty predikují, že vrchol populace nebude vyšší než 150 milionů obyvatel a usuzují, že bude trvat zhruba do roku 1980, než se tohoto počtu dosáhne. Tato strašná podcenění vyplynula z předpokladu, že trend bude pokračovat beze změny. Podobný předpoklad nadělal o století dříve stejnou škodu v opačném směru, protože počítal s pokračováním míry růstu populace z let 1790 až 1860. Abraham Lincol ve své druhé zprávě pro Kongres předpověděl, že americká populace dosáhne 251.689.914 obyvatel v roce 1930.

Zanedlouho poté, v roce 1874, shrnul Mark Twain nesmyslnost extrapolací v knize Život na Mississippi:

Za uplynulých 176 let se dolní tok Mississippi zkrátil o 242 míle. To je v průměru jen o málo víc než 1,3 míle za rok. Z toho může každý normální člověk, který není slepý ani slabomyslný, snadno odvodit, že ve starém, oolitickém silurialním období, přesně milion let od minulého listopadu byl dolní tok řeky Mississippi o 1.300.000 mil dělší a vyčníval nad Mexickým zálivem jako rybářský prut.  Na základě stejné logiky si může každý také odvodit, že ode dneška za 742 roky bude dlouhá jen 1,75 míle a Cairo a New Orleans budou mít propojené ulice a budou se pohodlně flákat pod jedním primátorem a společnou městskou radou.  Věda je něco fascinujícího. Člověk investuje pár nicotných faktů a vrátí se mu za to celý velkosklad domněnek.

Poznámka Evy Zamrazilové:

Dennodenně se v médiích setkáváme s výroky o statistických ukazatelích, s tím, že je často použit emotivní slovník typu: průmyslová výroba se propadla o 1,5 %, stavebnictví trhalo rekordy, inflace vyskočila na 6 %, obchodní přebytek vyšplhal na rekordní úroveň a drží ekonomiku nad vodou, a tak bychom mohli pokračovat velmi dlouho. Vzbudí to v nás často dojem jak opravdu mimořádně dobrý či naopak katastrofální vývoj se odehrává. Ve skutečnosti se často jedná o změnu zdaleka ne tak dramatickou. Jenže větu typu: průmyslová výroba se v květnu zvýšila o 5,4 %, což byl o tři desetiny vyšší růst než v dubnu, kdy vzrostl o 5,1 %, není pro média velkým trhákem. Atraktivněji přece zní: český průmysl láme rekordy. Požívání tohoto slovníku se stalo módní záležitostí analytiků i světa médií a často budí nepodložené dojmy. Nechme stranou to, že statistické ukazatele nejsou žádné opice, aby se někam šplhaly nebo skákaly nebo se něčeho držely. Závažnější je to, že síla médií je dnes tak obrovská, že vyvolává masový sentiment, a to může být hodně nebezpečné.

Než se úplně vyděsíme, že ekonomika je v troskách anebo naopak propadneme euforii, že úžasný rozvoj bude pokračovat na věky věků, zkusme se střízlivě dobrat skutečné vypovídací hodnoty každé takové informace. Co se týče statistických ukazatelů o české ekonomice a společnosti, je většina čerstvých výsledků oznamována Českým statistickým úřadem. Společně s nimi ČSÚ publikuje krátkou analytickou informaci, která zasadí nový údaj do celkového kontextu. Výsledky zde nikam nevyskakují, nešplhají, ani nepadají do propasti. A pokud už je v komentáři odborníků ze statistického úřadu takový výraz použit, pak se opravdu jedná o něco, co je mimořádné.

Kouzlo nezávislosti statistických úřadů ve většině světa je v tom, že prostě poskytují službu. Popisují vývoj země a společnosti co nejvěrněji, shromažďují k tomu potřebné informace, sjednocují metodiku tak, aby čísla byla mezinárodně i v čase srovnatelná a nic tím nedokazují. Analyzují zjištěné skutečnosti a ukazují některé základní souvislosti. Je to dobrá služba pro všechny obory lidské činnosti. Každý se zde může poučit, vybavit pro svá životní rozhodnutí, utvořit si vlastní názor. Většina ostatních statistik je zveřejňována s určitým cílem. Čísla se vybírají, upravují a interpretují tak, aby o něčem svědčila, aby podpírala určité vidění věcí, určité názory, zájmy určité skupiny. Někdy není úplně jednoduché takovou snahu rozpoznat. Pokud si však osvojíme alespoň základní instinkty kritického myšlení, nad těmi nejjasnějšími, naprosto jednoznačnými statistickými důkazy přinejmenším zpozorníme. Nemusejí být tak přesné. Nemusejí být úplné a mohou někdy odporovat i zdravému rozumu.

Na webu Českého statistického úřadu lze najít spoustu zajímavých zpráv, informací, analýz a všechno jsou to materiály, které hovoří o číslech tím poctivým způsobem. Nechtějí nikoho šokovat ani ohromovat, chtějí jen dát lidem poctivé informace. Česká statistika má dlouhodobou tradici, má velmi dobrou pověst i v mezinárodním srovnání a je to jedna z oblastí, na které jako národ můžeme být pyšní. Proto by si webové stránky ČSÚ zasloužily, abychom si je čas od času prohlédli. Nebo si zkuste přečíst časopis Statistika a my. Sice se tam nedočtete, kde a s kým večeřela nějaká „celebrita“, zato se ale dozvíte spoustu zajímavého o ekonomice a společnosti i o tom, co vše statistika opravdu produkuje – a v žádném z těchto článků by pan Huff nenašel inspiraci pro knížku, kterou jste právě dočetli.

doc. Ing. Eva Zamrazilová, CSc.

Po studiu na národohospodářské fakultě VŠE vyučovala teorii statistiky a ekonomickou statistiku na VŠE, pracovala jako vědecký pracovník v Ústavu prognózování VŠE, v Ekonomickém ústavu ČSAV a Výzkumném ústavu práce a sociálních věcí. V 90. letech spolupracovala na řadě studií k tématice transformace české ekonomiky, absolvovala krátkodobé stáže v zahraničí. Doktorandské studium ukončila v roce 1990 na Katedře statistiky NH fakulty VŠE. Od roku 1994 pracovala na makroekonomických analýzách a prognózách v Týmu hlavního ekonoma Komerční banky. Byla členkou vědeckého grémia České bankovní asociací v rámci Pracovní skupiny pro ekonomické a měnové otázky, je členkou předsednictva České společnosti ekonomické a nositelkou ceny ČSE. Přednáší makroekonomickou analýzu na Vysoké škole ekonomie a managementu. Dlouhodobě publikuje v domácím i zahraničním odborném tisku na témata makroekonomické rovnováhy, konvergenčního procesu tranzitivních ekonomik, hospodářské politiky, trhu práce (je autorkou či spoluautorkou více než 150 odborných titulů), rovněž přednáší na odborných konferencích. S účinností od 1. března 2008 byla Eva Zamrazilová jmenována členkou bankovní rady ČNB.

Poznámka ČSÚ – Tereza Košťáková, Petr Musil

Poslední kapitola je do značné míry shrnutím všeho podstatného, co D. Huff zmínil v předchozích kapitolách. V podstatě se jedná o velmi praktický návod, jak by se měl chovat kdokoliv, kdo vnímá jakýkoliv číselný údaj v našem informačním prostoru. Záměrně neříkáme „jakýkoliv statistický údaj“, protože přestože se tak většina číselných údajů snaží maskovat, nemusí jimi ani zdaleka být. Statistické údaje by měly mít jisté kvality a tu by sami uživatelé měli hlídat a věnovat ji pozornost.

Přestože byla kniha napsaná v době, kdy běžný čtenář a posluchač nepotkával tolik čísel každý den a kdy nebyl informační prostor tak hustý jako dnes, je tato praktická příručka stále univerzálně platná a užitečná. Dokonce bez nadsázky můžeme říct, že v dnešní době je potřeba víc než dřív. Metody záměrného matení pomocí čísel, i zcela nezáměrné chyby a omyly, jsou sice stále stejné, mnoho se toho v této oblasti nezměnilo, ale na druhou stranu dnes každý člověk u počítače může po pár kliknutí vytvořit graf, který výmluvně promlouvá k velkému množství lidí. Je snadné udělat některou z nadčasových chyb. A bohužel je také stále snadné ji neodhalit (pro tvůrce i čtenáře, posluchače i diváky).

Abychom však naše povídání nekončili s myšlenkou na chyby a zmýlení. Existuje mnoho renomovaných institucí, které jsou zárukou kvality. Údaje, které publikují, jsou obvykle volně dostupné. Proto mohou tyto instituce jen stěží ovlivnit interpretaci jimi vydávaných dat, na druhou stranu má ale každý uživatel možnost původní údaje prozkoumat sám. E. Zamrazilová se velmi pěkně vyjádřila o Českém statistickém úřadu, jako o jedné z nejvýznamnějších organizací, které kvalitní data publikují. Proto bychom na tomto místě rádi zmínili i další významné instituce, které statistické prostředí v ČR formují a poskytují velmi kvalitní údaje.

Patří mezi ně Česká národní banka, která vytváří měnovou statistiku, sestavuje platební bilanci a nabízí řadu dalších statistik. Česká národní banka je obdobně jako ČSÚ nezávislou institucí, což je záruka nestranných a kvalitních statistik. Specializované statistiky vytvářejí i další instituce, například Úřad zdravotnických informací a statistiky (ÚZIS), které v některých oblastech s ČSÚ úzce spolupracují.

Ovšem ČSÚ, a jistě to platí i o všech ostatních statistických institucích, nesmí usnout na vavřínech. To, že dlouhodobě publikuje kvalitní statistické ukazatele, je do značné míry spojeno s neustálým vylepšováním statistických metod a zkoumáním reálného světa. Nové technologie mění svět, přicházejí nové způsoby podnikání, globalizační jevy ovlivňují ekonomické prostředí a na to všechno musí statistika reagovat, pokud chce zachovat kvalitu a vypovídací schopnost svých ukazatelů. Vedle toho svět zajímají i zcela nové, dosud nesledované jevy. Vezměme si například neustále se rozšiřující počet ukazatelů zaměřených na informační technologie, už dávno nejde jen o podíl populace s přístupem k internetu, sledují se konkrétní dovednosti i různé dílčí oblasti IT, které se donedávna nesledovaly a dnes jsou běžnou součástí nabídky statistických ukazatelů. A podobně je na tom mnoho dalších statistik. Svět se mění a s ním musí i statistika. Ale to nejde bez ochotných respondentů (podniků, domácností i jedinců), na základě jejichž informací je možné statistické ukazatele odhadovat, ani bez poučených a konstruktivně kritických uživatelů.

Ing. Tereza Košťáková

Absolvovala obory Hospodářská politika a Ekonomická žurnalistika na Vysoké škole ekonomické v Praze. Pracuje v Českém statistickém úřadě, kde postupně zastávala různé pozice. Mimo jiné se podílela na vývoji nové metody odhadu zahraničního obchodu v podmínkách jednotného trhu EU, od roku 2014 byla vedoucí oddělení čtvrtletních odhadů v odboru národních účtů, které odpovídá za čtvrtletní odhady hrubého domácího produktu a souvisejících makroekonomických agregátů. Patří mezi uznávané odborníky v oblasti zahraničního obchodu a dopadů globalizace na vypovídací schopnost statistických ukazatelů. Je autorkou populárně naučné knihy „O složitém jednoduše – aneb nebojte se statistiky, nekouše“.

Ing. Petr Musil, Ph.D.

Absolvoval obor Statistické a pojistné inženýrství na Vysoké škole ekonomické v Praze, kde získal doktorát v oboru Statistika. Již při studiích nastoupil do Českého statistického úřadu, kde prošel několika pozicemi a od roku 2021 je ředitelem sekce makroekonomických statistik. Podílel se na zavádění mezinárodních standardů národního účetnictví ve vybraných zemích v rámci mezinárodních projektů. Je autorem nebo spoluautorem desítek odborných článků a konferenčních příspěvků. Patří mezi uznávané odborníky v oblasti ekonomické statistiky. V rámci pedagogické činnosti se podílí na výuce ekonomické a sociální statistiky na Fakultě informatiky a statistiky VŠE v Praze.

Předchozí článekJak statistikulovat

Jak lhát se statistikou