Rozptyl, směrodatná odchylka a variační koeficient

VYDÁNÍ: 00/2019
sdílejte na Facebooku sdílejte na Twitteru pošlete e-mailem sdílejte

O tom, že průměrná mzda neznamená, že polovina lidí bere podprůměrnou mzdu a polovina nadprůměrnou, již víme. Stejně tak i to, že vedle průměru existují další ukazatele, které nabízejí jiné, doplňující informace, například medián. A jsou tu i další, jež si zaslouží pozornost: rozptyl, směrodatná odchylka a variační koeficient.

Patrně nejčastějším vtipem znevažujícím průměr je: „Já sním celé kuře, ty žádné, takže v průměru jsme oba najedení.“ Terčem posměchu je tu jedna z hlavních slabin průměru, a to ztráta detailních informací o odlišnosti jednotek (žaludků) uvnitř zkoumané skupiny. To, že v průměru snědli dva lidé každý polovinu kuřete, nám neříká vůbec nic o tom, že jeden má stále hlad a druhý je přecpaný. Díky průměru máme pouze představu o průměrné úrovni, nikoli však o rozdílech uvnitř souboru. Pokud by si jeden vybojoval alespoň čtvrtku kuřete a druhý snědl zbytek, průměr na jeden žaludek bude také půl kuřete, ale pocity hladu a nasycení už nebudou tak nevyrovnané. Ze samotného průměru, který je v obou případech stejný, však tento rozdíl nepoznáme. A právě z těchto důvodů statistika nabízí různé ukazatele variability.

Život není o průměru…

Prvním je rozptyl. Ten zachycuje, jak moc jsou jednotky v souboru (dva žaludky) odchýlené (vzdálené) od průměru (půlky kuřete), a z praktických důvodů je hodnota těchto odchylek umocněna (aby výsledek nebyl nula). Složitěji řečeno, rozptyl je ve své podstatě průměrnou čtvercovou odchylkou od průměru. V našem původním příkladu jeden člověk snědl celé kuře, druhý nic a v průměru každý půl. Jednotlivé odchylky od průměru jsou v tomto případě –0,5 kuřete (žádné kuře minus půl kuřete) a +0,5 (jedno kuře minus půl kuřete). Rozptyl je pak vypočten jako průměr druhých mocnin těchto odchylek, tj. [(–0,5)2 + (+0,5)2] / 2 = 0,25. U druhé dvojice, v níž jeden strávník snědl čtvrtku kuřete (tj. 0,25 kuřete) a druhý zbytek (0,75 kuřete), je rozptyl vypočten jako [(0,25 – 0,5)2 + (0,75 – 0,5)2] / 2 = 0,0625. Když porovnáme rozptyl z prvního příkladu (0,25) a z druhého příkladu (0,0625), zjistíme to, co už dávno tušíme. Že větší variabilita (rozdíl mezi žaludky) je v případě, kdy jeden snědl celé kuře a druhý nic (tj. v prvním příkladu). Nicméně samotná interpretace hodnoty rozptylu je trochu problematická a rozptyl těžko představitelný. V podstatě jej můžeme chápat spíše jako první krok na cestě k dalším ukazatelům variability.

Rozptyl, směrodatná odchylka a variační koeficient

Směrodatná odchylka je, jednoduše řečeno, průměrnou odchylkou od průměru (půlky kuřete). Jinými slovy, je druhou odmocninou z rozptylu. Díky této jednoduché operaci dostaneme ukazatel, který má na rozdíl od rozptylu již stejné jednotky jako původní hodnoty (kuřata v žaludku). Zbavili jsme se prostě jen toho umocnění (té čtvercové odchylky). V našem prvním příkladu hladovce a lakomce je směrodatná odchylka rovna √0,25 = 0,5. To znamená, že v průměru jsou oba strávníci odchýlení od průměru (tj. od půlky kuřete) o půlku kuřete. To jsme samozřejmě věděli už na začátku, ale to jen proto, že jsme zvolili tak jednoduchý příklad. U druhého případu, kde se strávníci o kuře podělili lépe, je směrodatná odchylka √0,0625 = 0,25, tedy v průměru jsou oba vzdáleni od průměru o čtvrtku kuřete. Opět, i z tohoto ukazatele jasně vyplývá, že variabilita je menší u druhé dvojice (0,5 vs. 0,25).

… stejný průměr = různě hladoví lidé.

Posledním ze základních ukazatelů variability je variační koeficient, který vypovídá o relativním významu průměrné odchylky od průměru, tj. kolik procent průměru představuje směrodatná odchylka. Tento ukazatel je nejvhodnější pro porovnání variability ukazatelů a souborů jednotek různých úrovní, neboť jde o bezrozměrnou veličinu, obvykle vyjádřenou v procentech. V našich jednoduchých příkladech to není až tak nutné, protože obě dvojice mají stejnou úroveň (jedno snědené kuře, v průměru půlka na osobu) a k porovnání variability tak stačí směrodatná odchylka. Kdyby však jedna dvojice snědla tři kuřata a druhá jen jedno, už by byl pro porovnání variability vhodnější variační koeficient, nikoliv směrodatná odchylka. Pro úplnost si jej vypočtěme i v našich případech. U první dvojice je variační koeficient 100 % (0,5 děleno 0,5), zatímco u druhé dvojice představuje průměrná odchylka pouze 50 % průměru (0,25 děleno 0,5). I podle tohoto ukazatele je tedy variabilita (tj. nerovnoměrnost porcí) u první dvojice vyšší než u druhé.

Směrodatnou odchylku ani ostatní ukazatele variability sice v oficiálních statistických výstupech často nenajdeme, nicméně je dobré o nich vědět. Když už pro nic jiného, tak proto, aby nám připomínaly, že samotný průměr není všeříkající a že i za stejným průměrem se mohou skrývat úplně jinak plné žaludky.

 

Text je z publikace, která vznikla úpravou a rozšířením článků publikovaných ve Statistice&My v letech 2015 až 2018. Knihu lze stáhnout na www.czso.cz/nebojtesestatistiky a objednat na adrese objednavky@czso.cz. Původní články jsou uloženy v archivu pdf.

Autor: , vedoucí oddělení čtvrtletních odhadů
Zatím zde není žádný komentář.