Rozhodnutí neodkládat sčítání kvůli epidemii bylo správné

    S ředitelem sekce demografie a sociálních statistik Martinem Zeleným jsme hovořili hlavně o projektu Sčítání 2021, který pokračuje i po skončení loňské terénní fáze.

    Jak hodnotíte dosavadní průběh sčítání?

    Postupujeme víceméně podle plánu. Na začátku roku jsme zveřejnili první výsledky, zatím do úrovně krajů, a z velké části již máme za sebou náročnou fázi kódování dat.

    Co všechno se dělo s vyplněnými formuláři a s údaji v nich po skončení terénní fáze sčítání?

    Obdržené listinné sčítací formuláře byly již během terénní fáze průběžně dodávány na digitalizační pracoviště České pošty, kde probíhalo jejich skenování. Součástí této fáze zpracování byla i prvotní validace pořízených údajů, tedy základní rozpoznání vyplněných zaškrtávacích políček a znaků v textových polích formulářů. Po naskenování byly listinné formuláře uloženy do zabezpečených archivních boxů, kde jsou připraveny na skartaci.

    Dalším krokem je kódování, při němž se zapsané údaje převádějí do standardizované podoby a dochází například k určení konkrétní obce a ulice nebo třeba respondentem vykonávané profese. Velká část záznamů se kóduje automaticky, pomocí algoritmů rozpoznávajících text a na ně napojených slovníků. Tento proces je nastaven jako částečně samoučící, algoritmy i slovníky průběžně vylepšujeme a dolaďujeme a tím se zvyšuje jeho úspěšnost. Automatickým kódováním prošlo přes 27 milionů záznamů, úplně všechny se ale samozřejmě takto vyřešit nepodaří. Musí je ověřit člověk na kódovacím pracovišti. To máme zřízené v takzvané režimové části budovy u nás na ústředí. Jedná se o větší prosklenou místnost s počítači a sousední velín, z něhož probíhá dohled nad činností jednotlivých kodérů. Každý z nich řeší jen vybranou položku a k dispozici má pouze nezbytné údaje potřebné pro její rozpoznání, posouzení a návrh správného zakódování. Neprohlíží tedy celý formulář a nevidí ostatní položky jako například jméno konkrétního respondenta.

    Doposud bylo takto manuálně zakódováno přes 1 750 000 záznamů a zbývá už jen menší část položek u vykonávané profese, která patří z tohoto pohledu k nejnáročnějším.

    Mgr. Ing. Martin Zelený, Ph.D.

    Vystudoval obor statistika na Fakultě informatiky a statistiky VŠE Praha a obor veřejná a sociální politika na Fakultě sociálních věd Univerzity Karlovy. V ČSÚ začal pracovat od roku 2000, nejprve v oddělení sociálních šetření, posléze v útvaru koordinujícím všechna šetření v domácnostech prováděná ČSÚ. Od června 2017 vede sekci demografie a sociálních statistik.

    Proč zrovna rozpoznání profese je tak složité?

    Různorodost profesí je velká a nejde je jednoduše zatřídit již ve formulářích. Respondenti popisovali své pracovní zařazení vlastními slovy, ale my tyto údaje musíme správně zařadit do podrobné mezinárodně srovnatelné klasifikace. A podíl odpovědí, které ani s pomocí pokročilejších algoritmů nebylo možné automaticky rozklíčovat, byl přece jen o něco vyšší, než jsme očekávali. Jde však o poměrně využívanou a důležitou informaci, takže jí věnujeme náležitou pozornost.

    Narazili jste na podobné komplikace i u jiných údajů?

    V listinných formulářích respondenti občas odpovídali nelogicky, což je ale obvyklý problém, se kterým se musí počítat. S tímto jevem máme zkušenosti z předchozích sčítání a nijak nás tedy nepřekvapil. Na druhé straně nám pomohl vysoký podíl elektronicky vyplněných sčítacích formulářů. Bylo jich více než 85 procent a chybovost v nich je samozřejmě výrazně nižší. Respondentům se na nich zobrazovaly pouze pro ně relevantní otázky a pro řadu údajů byly k dispozici seznamy možných odpovědí na výběr.

    Překvapilo vás něco na prvních výsledcích, které jsou již k dispozici?

    Neřekl bych, že by mě něco nějak výrazně překvapilo, což je ostatně asi spíše dobře. Cílem sčítání přece jen není něčím vysloveně prvoplánově překvapovat, ale kvantifikovat základní charakteristiky obyvatelstva na úrovni celé populace a ve velkém detailu.

    Ale můžu zmínit několik zajímavějších věcí. O poznání vyšší než v předchozím sčítání byla třeba vyplněnost otázky na víru. Minule ji vynechalo 45 procent respondentů, nyní pouze necelá třetina. Mezi věřícími výrazněji klesl podíl osob hlásících se k početně největším církvím. Podle dosud zpracovaných dat také vzrostl podíl obyvatel hlásících se ke dvěma národnostem.

    Odrazila se na zjištěných výsledcích nějak epidemie covidu-19?

    Na samotné provedení sčítání epidemie samozřejmě vliv měla, tomu nešlo úplně zabránit. Měnili jsme pravidla a upravovali podklady pro pochůzky sčítacích komisařů. Nebylo možné vstupovat přímo do budov, což nám nyní trochu zkomplikuje zpracování údajů za byty a bytový fond. Sběr listinných formulářů byl upraven na zcela bezkontaktní, neprováděli ho sčítací komisaři a velká většina formulářů dorazila prostřednictvím P. O. Boxu. Odevzdávat je bylo možné také na kontaktních místech v poměrně husté síti vybraných poboček pošty a na krajských pracovištích ČSÚ. Na situaci jsme reagovali rovněž větším důrazem na možnost online sečtení a prodloužením této fáze sčítání. To se jednoznačně osvědčilo a projevilo se to i v dosaženém vysokém procentu elektronicky odevzdaných sčítacích formulářů. Dobře zafungovala i výzva k jisté formě osobní asistence třeba ohroženým skupinám obyvatel nebo k pomoci mladších členů domácnosti se sečtením těch starších. Aktivní v tom byly i některé obce, které poskytovaly podporu svým seniorům.

    V tom vypjatém a nelehkém období zejména února a března loňského roku jsme samozřejmě také uvažovali o odložení terénní fáze sčítání, i tato varianta byla na stole. Zpětně však vidím, že rozhodnutí zůstat u původního termínu a posílit důraz na elektronické a bezkontaktní formy sečtení bylo správné. Podzim by v tomto směru nebyl lepší a odklad by znamenal citelné dodatečné finanční náklady. Velké problémy bychom měli s personálním zajištěním, protože většina našich terénních pracovníků měla pracovní smlouvy jen do konce června. I přes dílčí komplikace, které nám epidemická situace a nutné úpravy s ní spojené přinesly, proběhlo sčítání, a to i ve srovnání se zahraničím, dobře.

    Pokud jde o výsledky sčítání samotné a odpovědi ve formulářích, asi největší možný dopad vidím u údajů na dojížďku do zaměstnání a školy, které byly epidemickou situací ovlivněny nejvíce. Jejich přesné zpracování bude ale ještě nějaký čas trvat.

    Jaký je harmonogram zveřejňování dalších výsledků?

    Na začátku roku jsme publikovali první výsledky, zatím do úrovně krajů. Náš zpracovatelský tým pod vedením věcného gestora sčítání Roberta Šandy nyní pracuje na datech v územním detailu. Na konci března chceme publikovat výsledky až do úrovně obcí a městských částí. Paralelně probíhá zpracování a konsolidace dat za domácnosti, výstupy týkající se různých typů a složení domácností včetně územního detailu plánujeme zveřejnit ve druhém pololetí. Následovat bude zpracování statistického souboru s dojížďkovými proudy a bilancemi toků a migrace mezi územími. Součástí tohoto balíku budou rovněž geodata za čtvercovou síť pokrývající celé území republiky.

    Budou detailní data zveřejněna v uživatelsky přívětivé formě?

    Ano, s kolegy z našeho odboru informačních služeb připravujeme zásadní inovaci webové prezentace a intenzivně pracujeme na vývoji nového moderního portálu pro práci s daty. Chceme nabídnout co nejvíce výstupů a informací v podobě datových sad, které zájemcům umožní vytvořit si snadno vlastní sestavu obsahující to, co potřebují. Samozřejmostí bude možnost stáhnout si vytvořený výstup nebo i celou datovou sadu na dané téma včetně metadat ve formátu otevřených dat a dál s ní pracovat ve vlastním softwaru nebo aplikaci. Data budou k dispozici i pro automatizované komunikační rozhraní, přes které mohou být přímo využívána aplikacemi uživatelů, tedy ke komunikaci počítač – počítač. Prvními daty zveřejněnými tímto způsobem budou na podzim právě data ze Sčítání 2021. V krátké době budou ovšem následovat i další statistická data z naší sekce i z celého úřadu.

    Mohou se na vás obracet také zájemci o individuální zpracování výsledků sčítání do nějakých nestandardních sestav či analýz?

    Naším hlavním cílem je zpřístupnit co největší objem i velmi detailních výstupů ze sčítání k přímému využití přes portál pro práci s daty. Tento způsob je komfortnější jak pro uživatele, tak i pro nás. S orientací na portále a s výběrem relevantních dat pro konkrétní potřeby pomůže méně zkušeným uživatelům naše oddělení informačních služeb. Jeho pracovníci budou schopni většinu požadavků vyřídit nasměrováním na adekvátní datové sady.

    Počítáme ale i s tím, že budou existovat specifické požadavky na výstupy, například za nestandardní územní celky, nebo na zvláštní třídění pro potřeby různých analýz. I to je běžná součást naší práce a již nyní poskytujeme data z minulých sčítání na základě individuálních požadavků, které dostáváme poměrně často.

    Už máte alespoň rámcovou představu, jak bude probíhat příští sčítání?

    Tak samozřejmě platí, že po sčítání nebo ještě během něho je vlastně už před dalším sčítáním. Už nyní vyhodnocujeme to současné s vědomím příštího v roce 2031. A často se s kolegy přistihneme při tom, že plynule přejdeme k myšlenkám, jak by to mohlo vypadat za těch deset let. Na toto téma dostáváme i poměrně hodně dotazů, což mě vcelku těší. Sčítání 2031 je ještě poměrně daleko a do té doby se jistě stane spousta věcí, které ho nějak ovlivní. První návrh tedy určitě bude pracovat s více variantami, z nichž pak vykrystalizuje ucelený věcný záměr. Některé trendy jsou ale již nyní zjevné. Určitě očekávám další příklon k využívání administrativních a digitalizovaných dat. Míra elektronické sečtenosti již v tom nynějším sčítání naznačuje, že příští sčítání, pokud bude obsahovat i sčítací formulář pro veřejnost, bude primárně online a zřejmě již zcela bez listinných sčítacích formulářů. Skutečnost, zda v příštím sčítání bude nebo nebude potřeba sčítací formulář, hodně závisí na postupu digitalizace a rozvoji infrastruktury administrativních dat. Ale třeba také na tom, jak se postavíme k subjektivnějším otázkám a fenoménům, jako je například národnost, náboženská víra nebo mateřský jazyk, které lze jen obtížně získat z nějakého administrativního zdroje. Takže o konkrétní podobě příštího sčítání se rozhodne v příštích zhruba pěti letech, během nichž dojde k vyhodnocení variant možných řešení pro rok 2031 a k nastavení hlavních výhybek pro určení, co bude obsahem sčítání, jaké zdroje dat se budou využívat a jakou formou se budou údaje zjišťovat.

    Zásadní vývojový milník nás ale čeká i v mezidobí. Dalším jasným trendem v populačních cenzech je totiž zkrácení frekvence poskytování údajů a přechod z desetiletých zjišťování na každoroční. Obrazně se tomu někdy říká „od fotografie k filmu“. Současné desetileté cenzy jsou onou pomyslnou velmi detailní fotografií. Ten „film“ sice neobsahuje často úplně vše, co klasické sčítání, ale poskytuje daleko čerstvější a pravidelná data. V praxi to znamená provádění každoročních „malých“ sčítání založených na dostupných administrativních zdrojích dat. O tom se nyní hodně diskutuje i na celoevropské úrovni, protože jde o trend společný všem zemím. Některé jsou už o něco dál, a taková každoroční sčítání provádějí. My se chceme touto cestou vydat rovněž, a sčítání 2021 jsme proto koncipovali tak, abychom na něj mohli navázat a vybrané údaje výhledově poskytovat uživatelům v ročních časových řadách. Evropská komise nyní chystá návrh právní normy, jejímž cílem je vytvořit společný základ pro výstupy, definice a postupy za všechny země, abychom mohli uživatelům nabídnout i mezinárodně srovnatelná data. Návrh dostaneme na stůl v rámci našeho nadcházejícího předsednictví EU a ve spolupráci se švédskými kolegy, kteří od nás budou štafetu v lednu přebírat, zahájíme přípravu společného právního textu, na němž by se měly shodnout všechny členské země. Současně již pracujeme na tom, abychom mohli roční sčítání provádět i u nás a nabídnout tak uživatelům žádané výsledky za kraje, regiony a města i v roční frekvenci.

    Článek si můžete přečíst také v chystaném únorovém čísle časopisu Statistika&My.