Co průměr zatajuje

Předpokládám, že nejste žádný snob a ujišťuji vás, že já nepodnikám v realitách. Na chvíli si ale představme, že jste snob a že já v realitách podnikám. Navíc si představíme, že hledáte nějakou nemovitost, kterou byste koupil a která aby nebyla daleko od kalifornského údolí, kde já bydlím.

​Napřed si vás ošacuji a pak vám s politováním řeknu, že průměrný příjem v této rezidenční čtvrti je kolem 15.000 dolarů ročně. Možná, že se právě proto rozhodnete, že tu chcete bydlet; ať tak nebo tak, zkrátka to koupíte a tohle pěkné číslo ulpí ve Vaší mysli. A protože jsme se spolu dohodli, že pro tento účel jste tak trochu snob, tak to s velkou pravděpodobností nenápadně prohodíte, když budete říkat přátelům, kde bydlíte.

​Zhruba za rok se opět setkáme. Jako člen nějakého výboru daňových poplatníků rozšiřuji petici za snížení daňových sazeb, za snížení cen nebo jízdného v autobusech. Namítám, že si zvýšení nemůžeme dovolit: Konec konců, průměrný příjem v této rezidenční čtvrti je jen 3.500 dolarů ročně. Možná se v této věci přidáte ke mně a k mému výboru – nejste jenom snob, jste také lakomec – ale marná sláva, přecejen jste překvapen, když slyšíte o těch mizerných 3.500 dolarů. Lžu teď nebo jsem lhal loni?

​Jenomže ze lži mě neusvědčíte ani teď, ani tehdy. To je ten základní půvab lhaní pomocí  statistiky. Obě ta čísla jsou normální střední hodnoty, ke kterým se došlo zcela legálně. Obě vycházejí ze stejných dat, od stejných lidí a vypovídají o stejných příjmech. Zároveň je jasné, že alespoň jedno z nich musí být tak zavádějící, až hraničí s naprostou lží.

​Můj trik spočíval v tom, že jsem pokaždé použil jiný typ střední hodnoty. Běžně se používá slovo „průměr“, ale když se neuvede, o jaký průměr (aritmetický, geometrický atp.) se jedná, neznamená to slovo nic konkrétního. Je to trik, který se běžně používá. Někdy bezelstně, ale častěji záměrně. Ten trik používají lidé, kteří chtějí ovlivnit veřejné mínění nebo prodat reklamní prostor. Když vám řeknou, že je něco průměrně takové nebo onaké, vlastně o tom stále ještě nic moc  nevíte, pokud nemůžete zjistit, o který z běžných typů střední hodnoty se jedná – zda o aritmetický průměr, medián nebo modus.

​Těch 15.000 dolarů, které jsem použil, když jsem chtěl mít velké číslo, byl aritmetický průměr příjmů všech rodin v dané lokalitě. Získáte ho tak, že sečtete všechny příjmy a vydělíte je jejich počtem. To menší číslo je median, čili prostřední hodnota. Medián znamená, že přesně polovina dotčených domácností má víc než 3.500 dolarů ročně a polovina má míň. Také jsem mohl použít modus, což je veličina, která se v určité řadě vyskytuje nejčastěji. Pokud by v dané lokalitě bylo více rodin s příjmem 5.000 dolarů ročně než rodin z jiným příjmem, 5.000 dolarů ročně by byl modus, tedy modální (nejčastější) příjem.

​V daném případě a stejně tak v mnoha dalších, kdy se mluví o příjmech, je jakýsi blíže nespecifikovaný „průměr“ prakticky k ničemu. Aby to bylo ještě trochu zamotanější, tak u některých typů informací  ycházejí všechny typy středních hodnot tak blízko sebe, že pro běžné účely není zásadně nutné mezi nimi rozlišovat.

​Když se dočtete, že průměrná výška lidí v nějakém domorodém primitivním kmenu je jenom pět stop, máte o vzrůstu těch lidí celkem jasnou představu. Nemusíte se ptát, jestli ten průměr je aritmetický, medián nebo modus. Vyšlo by to na stejno. (Samozřejmě, pokud podnikáte ve výrobě kombinéz pro Afričany, budete chtít víc informací, než kolik jich lze vyčíst z nějakého průměru. To souvisí s rozpětím a odchylkami a budeme to řešit v jedné z dalších kapitol.)

​Různé typy středních hodnot vám vyjdou podobně, když pracujete s takovými daty, jejichž rozložení v populaci se – řečeno jazykem statistiků – blíží normálnímu rozdělení. Typickým příkladem jsou vlastnosti lidského těla. Když nakreslíte křivku, která tyto hodnoty znázorní, bude mít tvar zvonu a aritmetický průměr, medián i modus budou na tomto grafu ve stejném bodě.

​Proto je k popisu výšky lidí jeden typ střední hodnoty stejně dobrý, jako kterýkoliv jiný, ale pro popis jejich peněženek už to neplatí. Kdybyste měli sepsat roční příjmy všech rodin v určitém městě, zjistili byste, že se pohybují od malých částek až někam k 50.000 dolarů a našli byste i několik hodně vysokých příjmů. Více než 95% všech těchto příjmů bude pod 10.000 dolarů a budou umístěné na levé straně křivky. Místo aby byla tato křivka symetrická jako zvon, bude sešikmená. Bude mít tvar asi jako dětská skluzavka: Žebříček bude stoupat strmě k vrcholu a vlastní skluzavka bude postupně klesat dolů. Aritmetický průměr bude dosti vzdálený od mediánu. Teď se představte co by to udělalo s vypovídací hodnotou srovnání, kdyby se pro jeden rok vzala střední hodnota měřená aritmetickým průměrem a pro jiný rok střední hodnota vyjádřená mediánem.​

​V lokalitě, kde jsem vám prodal tu nemovitost, jsou obé střední hodnoty obzvlášť vzdálené, protože rozdělení je silně nerovnoměrné. Možná, že většina vašich sousedů jsou malí farmáři nebo pracují ve mzdě v nedaleké vesnici nebo jsou to postarší důchodci. Ale tři z majitelů jsou milionáři, kteří zde mají letní sídlo, a tito tři nafouknou celkový součet příjmů, a tedy i aritemtický průměr, který se z něj vypočítá. Oni zvýší aritmetický průměr tak, že je větší než příjem kohokoliv jiného v celé té lokalitě.

​Tady vidíte naprosto reálnou situaci, která vypadá jako vtip nebo jako slovní hříčka: Téměř každý je pod průměrem.

​Takže – když čtete zprávu vedení nějaké společnosti nebo majitele podniku o tom, že průměrný plat lidí v té firmě je tolik a tolik, tak to číslo nemusí říkat o platech v dané firmě téměř nic. Pouze pokud bude uvedeno, že se jedná o medián, dozvíte se cosi podstatného: Totiž, že polovina zaměstnanců vydělává víc a polovina vydělává míň. Pokud je to ale aritmetický průměr (a dejte na mě, že když neuvedou, o jaký průměr se jedná, bude to právě průměr aritmetický), nedostáváte nic objevnějšího než průměr z jednoho příjmu ve výši třeba 45.000 dolarů – což je příjem majitele – a z mezd nějakého počtu podhodnocených dělníků. „Průměrná roční mzda 5.700 dolarů“ v sobě může skrývat jak mzdy ve výši 2.000 dolarů, tak i zisk majitele, inkasovaný formou obrovské prémie.

​Podívejme se na to podrobněji. Ve zprávě se uvádí, kolik lidí bere kolik peněz. Šéf si možná libuje v tom, že prezentuje situaci jako „průměrnou mzdu 5.700 dolarů“ – a využívá k tomu onen klamavý aritmetický průměr. Modus by však odhalil daleko víc: kdyby byl modus řekněme 2.000 dolarů, věděli bychom, že toto je běžná úroveň roční mzdy v daném odvětví. Nu a samozřejmě medián by vypovídal o situaci daleko lépe než jakékoliv jiné jednotlivé číslo. Kdyby bylo uvedeno, že medián je 3.000 dolarů, věděli bychom okamžitě, že polovina lidí dostává víc než 3.000 dolarů a polovina dostává méně.

​Jak se to dá využít v situacích, kdy čím jsou čísla horší, tím lépe pro vás, je dobře vidět ve výkazech některých společnbostí. Zkusíme si to v malém a na vlastní kůži.

​Představte si, že jste jedním ze tří partnerů, kteří vlastní malý výrobní podnik. Je právě konec jednoho úspěšného roku. Vyplatili jste 198.000 dolarů devadesáti zaměstnancům, kteří vlastnoručně vyrábějí a odesílají třeba židle nebo co to v té firmě vlastně vyrábíte. Vy a Vaši partneři jste si vyplatili každý 11.000 dolarů jako mzdu. Zjišťujete, že zisk za tento rok je 45.000 dolarů a ten by měl být mezi vás rozdělen rovným dílem. Jak to popsat? Aby to bylo snadno srozumitelné, uvedete to ve formě průměru. Protože všichni zaměstnanci dělají zhruba stejnou práci za obdobnou mzdu, nebude velký rozdíl, jestli použijete aritmetický průměr nebo medián. Tady máte to, s čím byste šel ven:

Průměrná mzda zaměstnanců … 2.200 dolarů

Průměrná mzda a zisk majitelů … 26.000 dolarů.

To vypadá dost hrozně, co? Pojďme to zkusit trochu jinak.

​Vezměte 30.000 dolarů ze zisku a rozdělte tuto částku mezi partnery rovným dílem jako prémie k jejich mzdám. Když teď mzdy zprůměrujete, zahrnete do nich i sebe a své partnery. A určitě použijte aritmetický průměr.

Průměrná mzda nebo plat ….. 2.806,45 dolarů

Průměrný zisk majitelů …. 5.000 dolarů

Aha! Už to vypadá líp, že? Dalo by se to sice udělat ještě líp, ale už to vypadá docela slušně. Z celkového objemu peněz, určených na mzdy a zisk šlo do zisku méně než šest procent. Máte-li chuť, tak můžete uvést i to. Každopádně jste teď dostal čísla, která můžete zveřejnit, vyvěsit na nástěnku nebo použít při vyjednávání.

Je to dost primitivní, neboť jsme potřebovali zjednodušený příklad, ale není to nic proti tomu, co se dělá pod rouškou účetnictví. Když vezmete celou korporaci s hierarchiemi zaměstnanců od začínajících písařek až po prezidenta, který má bonusy v řádu několika set tisíc dolarů, tak se tímto způsobem dají schovat všechny možné věci.

​Takže – když vidíte čísla průměrných mezd, nejprve se ptejte: Průměr čeho? Kdo je do toho zahrnutý? Americká ocelářská společnost jednou sdělila, že průměrná týdenní mzda jejich zaměstnanců vzrostla mezi roky 1940 a 1948 o 107 procent. Tak to také bylo – ale tenhleten nádherný růst ztratí trochu svého lesku, když zjistíte, že údaj z roku 1940 zahrnoval daleko větší počet zaměstnanců na částečný úvazek. Když pracujete jeden rok na poloviční úvazek a další rok na plný úvazek, váš příjem se sice zdvojnásobí, ale o vaší hodinové mzdě to neříká vůbec nic.

​V novinách jste si mohli přečíst, že příjem průměrné americké rodiny byl za rok 1949 na úrovni 3.100 dolarů. Z takového čísla byste se neměli pokoušet cokoliv vyvozovat, dokud nebudete vědět, co znamenalo slovo „rodina“ a také, jak byla určena „průměrná rodina. (A kdo to říká a jak to ví a jak přesné to číslo je.)

​Faktem je, že toto číslo pochází ze Statistického úřadu USA. Když si vezmete zprávu tohoto Úřadu, nebude pro vás těžké najít zde hned i zbytek té informace, který potřebujete: v daném případě se jedná o medián; „rodina“ znamená dvě a více osob ve vzájemném vztahu, žijících společně.“ (Kdyby byly do celku zahrnuty i osoby žijící samostatně, median by klesl na 2.700 dolarů, což je dost velký rozdíl.)  Když se začtete dál do tabulek a k nim připojených informací, tak se dozvíte, že toto číslo je založeno na tak velikém vzorku, že s pravděpodobností devatenáct ku dvaceti je tento odhad – 3.107 dolarů před zaokrouhlením – správný v rozmezí plus/mínus 59 dolarů.

​Když se přidá tato pravděpodobnost a rozmezí, dává to dohromady docela kvalitní odhad. Lidé ze Statistického úřadu mají dostatečné schopnosti i dost peněz, aby dotáhli své analýzy, prováděné na vzorcích, k poctivé míře přesnosti. Zřejmě také nevnímají žádné konkrétní hrany, které by museli obrušovat. Ne všechna čísla, se kterými se setkáváte, se rodí za tak příznivých okolností a ani nejsou všechna doprovázena nějakými informacemi, které by ukazovaly, jak přesná či nepřesná mohou být. Probereme si to v jiné kapitole.

​Mezitím byste si možná rádi vyzkoušeli svou podezíravost na některých údajích, převzatých z článku „Slovo vydavatele“ v časopise Time. O nových předplatitelích se tu říká, že „Jejich střední věk, medián, je 34 let a jejich průměrný příjem na rodinu je 7.270 dolarů ročně.“ Dřívejší přehled „starých čtenářů časopisu Time“ zjistil, že jejich „věkový medián byl 41 let. … Průměrný příjem byl 9.535 dolarů …“ Přirozenou otázkou je: Proč, když v otázce věku je pokaždé použit medián, se typ střední hodnoty u příjmů důsledně neuvádí. Je to snad z toho důvodu, že byl použit aritmetický průměr, protože je vyšší a prezentuje tedy inzerentům bohatší čtenáře?

​Můžete se také vrátit k 1. kapitole a vyzkoušet si hru „Řekni-mi-jaký-typ-průměru-jsi“. Zamyslete se z tohoto hlediska nad údajnou prosperitou absolventů Yale z ročníku 1924, jak je citovaná v úvodu.

Poznámka Evy Zamrazilové:

Když charakterizujeme nějakou skupinu lidí nebo jakýchkoliv jiných objektů (statistik této skupině neřekne jinak než statistický soubor) z hlediska určité měřitelné vlastnosti (věk, váha, výška, doba trvání, příjem, délka trasy – statistik hovoří o statistickém znaku), setkáváme se většinou s průměrem a konkrétně máme na mysli průměr aritmetický (součet hodnot, dělený jejich počtem). Tento průměr je ale jen jednou z tzv. středních hodnot, které se používají k souhrnné charakteristice úrovně nějaké vlastnosti v souboru. Je výstižný v tom případě, kdy se hodnoty dané vlastnosti (znaku) u jednotlivých prvků statistického souboru od sebe příliš neliší. Statistik v takovém případě mluví o rovnoměrném rozložení hodnot kolem průměru. Jsou-li však některé hodnoty od ostatních příliš odlišné, může být průměr zavádějící a soubor příliš výstižně necharakterizuje. V mnoha případech je lepší použít jinou „míru polohy, resp. jinou „střední hodnotu“. V úvahu přichází medián nebo modus. Medián je prostřední hodnota a získáme ji tak, že objekty seřadíme vzestupně podle velikosti a vybereme tu, která leží uprostřed. Medián tedy rozděluje celý soubor na dvě poloviny o stejném počtu prvků. V jedné jsou všechny hodnoty nižší než medián a ve druhé všechny vyšší. Modus je ta hodnota, která se v souboru vyskytuje nejčastěji.

Ukažme si to na jednoduchém příkladu dvou skupinek po 5 dětech (i to mohou být statistické soubory).  První skupinka je tvořena dětmi ve věku 2, 2, 3, 4 a 4 roky, ve druhé jsou čtyři roční děti a jedno 11leté dítě. Představme si v prvním případě miniškolku, ve druhém dva kočárky s ročními dvojčátky, která daly maminky na chvilku pohlídat staršímu sourozenci. V obou případech je průměrný věk dětské skupinky 3 roky. Určitě ale cítíme, že toto číslo charakterizuje jakžtakž pouze první skupinku, kdežto ve druhé ani žádné tříleté dítě není. Zcela jasně převládají miminka. Median i modus by ve druhém případě byly rovny 1 – což převažující kojenecký charakter skupiny odráží podstatně lépe. Je to úplně stejné, jako s průměrným příjmem zaměstnanců – vysoké, byť ojedinělé hodnoty, posunou průměr výš, často mimo běžnou realitu. Průměr se pak nemusí rovnat žádnému z naměřených údajů a může být od všech hodnot dosti vzdálen. V tomto ohledu zaznívají ostatně výhrady například k průměrné mzdě v ČR, zjišťované jako aritmetický průměr. V roce 2020 to bylo 38.527 Kč, ale na tuto úroveň nedosáhlo 63 procent zaměstnanců. Medián mezd v daném období dosáhl 33.256 Kč.  I když rozdíl není dramatický, median charakterizuje běžnou úroveň příjmu v ČR výstižněji a ČSÚ jej už řadu let zjišťuje a zveřejňuje. Vždy, když se setkáme s pojmem „průměr“, měli bychom si položit otázku, o jaký průměr se jedná a jaké údaje za ním stojí. Pojmy jako „průměrný Čech“ nebo „průměrná cena bytu“, mohou být hodně zavádějící.

Konec konců, jaké problémy mohou být spojené s průměrem dobře vystihuje starý statistický bonmot: v průměru se nejlépe cítí člověk, když má hlavu v horké troubě a nohy v mrazáku – nebo naopak.

doc. Ing. Eva Zamrazilová, CSc.

Po studiu na národohospodářské fakultě VŠE vyučovala teorii statistiky a ekonomickou statistiku na VŠE, pracovala jako vědecký pracovník v Ústavu prognózování VŠE, v Ekonomickém ústavu ČSAV a Výzkumném ústavu práce a sociálních věcí. V 90. letech spolupracovala na řadě studií k tématice transformace české ekonomiky, absolvovala krátkodobé stáže v zahraničí. Doktorandské studium ukončila v roce 1990 na Katedře statistiky NH fakulty VŠE. Od roku 1994 pracovala na makroekonomických analýzách a prognózách v Týmu hlavního ekonoma Komerční banky. Byla členkou vědeckého grémia České bankovní asociací v rámci Pracovní skupiny pro ekonomické a měnové otázky, je členkou předsednictva České společnosti ekonomické a nositelkou ceny ČSE. Přednáší makroekonomickou analýzu na Vysoké škole ekonomie a managementu. Dlouhodobě publikuje v domácím i zahraničním odborném tisku na témata makroekonomické rovnováhy, konvergenčního procesu tranzitivních ekonomik, hospodářské politiky, trhu práce (je autorkou či spoluautorkou více než 150 odborných titulů), rovněž přednáší na odborných konferencích. S účinností od 1. března 2008 byla Eva Zamrazilová jmenována členkou bankovní rady ČNB.

Poznámka ČSÚ – Tereza Košťáková, Petr Musil

Průměrná mzda je ukazatel, pod kterým si každý z nás něco představí. Intuitivně máme pocit, že je pochopitelný a srozumitelný, na rozdíl od řady komplexních ukazatelů typu hrubý domácí produkt (HDP). A přesto je patří mezi nejméně pochopené indikátory, jejichž interpretace bývá často zavádějící. D. Huff a E. Zamrazilová na několika příkladech ilustrují, kde je využití průměru vhodné, a kde naopak může být zavádějící, zejména z důvodu jeho vysoké citlivosti na vlivná či extrémní pozorování (hodnoty) ve statistickém souboru. Jinými slovy, průměr je snadno vychýlen (nahoru nebo dolů), pokud se do výpočtu zahrnou extrémně vysoké nebo extrémně nízké hodnoty.

Proč je tedy průměr tak často používán, když je jeho interpretace jen zdánlivě snadná (a proto v ní o to více dochází k omylům)? Hlavním důvodem je rychlost výpočtu a nenáročnost, pokud jde o vstupní údaje a jejich detail. Stačí znát úhrn (například celkový objem vyplacených mezd v podniku) a počet pozorování (například počet zaměstnanců v podniku). Oba ukazatele lze obvykle snadno získat z účetních výkazů a není třeba zatěžovat podniky složitým a obsáhlým hlášením (detailních mezd jednotlivých pracovníků). Naopak k výpočtu mediánu, jehož interpretace bývá často s průměrem zaměňována, potřebujeme znát právě hodnotu znaku pro každé pozorování (například mzdu každého zaměstnance). Díky tomu je možné srovnat mzdy zaměstnanců od nejnižší po nejvyšší a najít hodnotu přesně uprostřed: 50 % zaměstnanců bude pobírat mzdu nižší než medián a 50 % má mzdu vyšší. Tato „prostřední hodnota“, která není vychýlena extrémními hodnotami, se nazývá medián, nikoliv průměr. Získávat však mzdy všech zaměstnanců rychle a často, je velmi složité. Proto byla historicky v mzdové statistice publikována nejprve průměrná mzda a až mnohem později přibyl medián a další charakteristiky. Český statistický úřad dnes již publikuje čtvrtletně nejen průměrnou mzdu, včetně základního členění podle pohlaví, kraje apod., ale i mediánovou mzdu, tj. mzdu prostředního zaměstnance. Detailů je však mnohem méně, než v případě údajů publikovaných jednou ročně.

Cílem krátkodobých (konjunkturálních) statistik je poskytnout uživatelům statistické informace co nejrychleji po skončení referenčního období. Cenou, kterou za tuto rychlost platíme, je menší podrobnost publikovaných ukazatelů. Roční datové sady nabízejí výrazně více informací o odměňování pracovníků, včetně distribuce (rozdělení) mezd.

Huff rovněž upozornil na problematiku zkrácených pracovních úvazků a jich dopad na průměrnou mzdu. Počet zaměstnanců může být vyjádřen ve fyzických osobách nebo přepočtený úvazcích na plnou pracovní dobu (FTE, full time equivalent). Český statistický úřad publikuje již od roku 2009 průměrnou mzdu v přepočtu na plně zaměstnané, a tudíž ukazatel průměrné mzdy není ovlivněn nárůstem či poklesem podílu zaměstnanců pracujících na zkrácený úvazek.

Autor dále upozorňuje, že mzdy představují odměnu z pracovního poměru a nejsou jedinými příjmy domácností. Dalšími zdroji domácností jsou příjmy z podnikání, kapitálu (např. úroky či dividendy) a sociální příjmy, mezi které se řadí důchody a jiné sociální dávky. Průměr a další charakteristiky lze spočítat nejen pro mzdy, ale i ostatní druhy příjmů. Podrobnější náhled na strukturu příjmů poskytuje Statistika příjmů a životních podmínek.

Ing. Tereza Košťáková

Absolvovala obory Hospodářská politika a Ekonomická žurnalistika na Vysoké škole ekonomické v Praze. Pracuje v Českém statistickém úřadě, kde postupně zastávala různé pozice. Mimo jiné se podílela na vývoji nové metody odhadu zahraničního obchodu v podmínkách jednotného trhu EU, od roku 2014 byla vedoucí oddělení čtvrtletních odhadů v odboru národních účtů, které odpovídá za čtvrtletní odhady hrubého domácího produktu a souvisejících makroekonomických agregátů. Patří mezi uznávané odborníky v oblasti zahraničního obchodu a dopadů globalizace na vypovídací schopnost statistických ukazatelů. Je autorkou populárně naučné knihy „O složitém jednoduše – aneb nebojte se statistiky, nekouše“.

Ing. Petr Musil, Ph.D.

Absolvoval obor Statistické a pojistné inženýrství na Vysoké škole ekonomické v Praze, kde získal doktorát v oboru Statistika. Již při studiích nastoupil do Českého statistického úřadu, kde prošel několika pozicemi a od roku 2021 je ředitelem sekce makroekonomických statistik. Podílel se na zavádění mezinárodních standardů národního účetnictví ve vybraných zemích v rámci mezinárodních projektů. Je autorem nebo spoluautorem desítek odborných článků a konferenčních příspěvků. Patří mezi uznávané odborníky v oblasti ekonomické statistiky. V rámci pedagogické činnosti se podílí na výuce ekonomické a sociální statistiky na Fakultě informatiky a statistiky VŠE v Praze.

Předchozí článekVzorek s genetickou vadou
Další článekKdyž chybí vysvětlivky

Jak lhát se statistikou