Kapitola 01 O statistice bez čísel

Průzkumy – ptejme se na původ dat

Všude kolem nás krouží čísla. Na internetu, v televizi, všude. Ve snaze dodat svým tvrzením váhu a objektivitu se lidé snaží podložit je (jakýmkoliv) číslem. Většina těchto dat vychází z průzkumů založených na výběrových šetřeních, protože plošná šetření jsou v praxi těžko proveditelná a příliš drahá.

Někdy jsou údaje kvalitní, někdy ne. Proto je potřeba, abychom byli ostražití a kriticky přemýšleli o tom, co slyšíme a vidíme. Obzvláště, když čteme v rychlosti jen krátké zprávičky nebo prolétneme nadpisy článků.

Řekněme, že slyšíme zprávu: „Češi jsou národem kutilů. Boříme, stavíme, přestavujeme, zahrádkaříme. Každý Čech utratí ročně za kutilství 25 741 Kč.“ Když to většina z nás uslyší, řekne si: Páni, to je opravdu dost! A tak přesné číslo? Překvapivá zpráva, ale necvičenému uchu nemusí znít podezřele. Je podložena číslem, nemáme tendenci pochybovat. Ale měli bychom. Když pomineme nejasné hranice toho, co je kutilství, první, na co bychom se měli ptát, je, kde se to číslo vzalo. Ve zprávě žádné podrobnosti nejsou. Ale protože se asi shodneme na tom, že nás se nikdo na naše útraty neptal, šlo patrně o výběrové šetření, nikoliv o plošné zjišťování. Měli bychom se tedy ptát, jak byl průzkum prováděn a jak jsou jeho výsledky přesné. Bez uvedeného zdroje dat nestojí jakékoliv číselné údaje za pozornost…

Špatná interpretace dat = špatné rozhodnutí!

Představme si, že částka byla zjištěna následovně: před několika vybranými hobby obchody byl každou březnovou neděli odpoledne prováděn průzkum mezi kolemjdoucími s dotazem, kolik utratí ročně za zahrádkaření, vylepšování bydlení a podobně. A na základě jejich odpovědí byl vypočítán průměr (25 741 Kč). Nejedná se tedy o vymyšlené číslo.

Tento údaj však autor zprávy zevšeobecnil a interpretoval jako výdaje, které v průměru utratí za rok každý Čech. A to byla ta chyba! I laika napadne, že takový průzkum je nevypovídající (o situaci, pro kterou jej použil autor zprávy). Statistik by řekl, že takový odhad je vychýlený (tj. není nestranný), protože vzorek respondentů (tj. těch, kteří odpovídali na otázky) byl nereprezentativní (neodpovídal české populaci). Přece kdo jiný než ryzí kutilové v neděli odpoledne obchází hobby obchody? Tedy ti, kteří za kutilství utrácejí nejvíce. Proto je zjištěný průměr vychýlen nahoru k vyšším částkám. Nikdo se totiž neptal těch, kteří neděli trávili v parku, v kavárně nebo doma u televize. Považovat výsledky takového průzkumu za vypovídající o výdajích všech Čechů je zcela chybné.

Průzkumy – ptejme se na původ dat

Částku 25 741 Kč bychom mohli interpretovat jako průměrný roční výdaj nedělních zákazníků hobby obchodů v měsíci březnu. Nelze totiž hovořit ani o reprezentativním vzorku kutilů obecně, protože lze předpokládat, že většina z těch, kteří v březnu nakupují, jsou zahrádkáři nebo budovatelé venkovních staveb. A ti budou utrácet zcela jiné částky než zimní kutilové.

Aby byl průzkum (výběrové šetření) prováděn kvalitně, měl by být založen na reprezentativním vzorku, který má podobnou strukturu jako zkoumaná populace. Pokud by naším cílem bylo zjistit průměrné roční výdaje zákazníků, kteří chodí do hobby obchodů na jaře, byl by snad výše popsaný způsob průzkumu vhodný a interpretace správná (za předpokladu dostatečně velkého vzorku). Nicméně pokud zkoumáme populaci České republiky, měl by být průzkum mnohem širší a vzorek lidí, jichž se ptáme, by měl lépe vystihovat českou populaci (podle věku, pohlaví, vzdělání… či jiných znaků, které považujeme za klíčové). Nejlépe by mělo jít o náhodný výběr těch, kteří na otázky odpovídají. Ale není snadné takový průzkum v praxi zajistit (a většinou je to drahé). I z tohoto důvodu bychom vždy měli vědět, kdo šetření prováděl.

Najít souvislosti je stejně těžké, jako určit příčinu a následek.

Jakmile jde o průzkum, je důležité se také ptát, jaká je přesnost prezentovaných výsledků. K tomu existují standardní statistické metody odhadující statistickou chybu výběrového šetření. (Z)běžný uživatel nemusí metody znát, měl by však chápat, že cílem takových šetření je obvykle odhad intervalu, ve kterém se s určitou pravděpodobností pohybuje hledaná hodnota. V našem příkladu by zpráva měla správně znít asi takto: „S 95% pravděpodobností se průměrné roční výdaje kutilů nakupujících v březnu pohybují okolo 25 700 Kč +/–3 500 Kč.“ Bohužel, takto suchá zpráva by asi nikoho nezaujala. Určitá míra zjednodušení je tedy už z principu přirozená a v mediální sféře nutná. Nemělo by to však vést k zavádějícím závěrům. A posluchači, diváci a čtenáři si musejí být těchto tendencí vědomi, být ostražití a přemýšlet o předkládaných číslech, ne je jen pasivně přijímat.

Tereza Košťáková:
O složitém jednoduše