Robert Šanda: Půjdeme do velkého územního detailu

Ředitel odboru statistiky obyvatelstva ČSÚ Robert Šanda přibližuje průběh letošního sčítání, způsob publikování výsledků i to, co se chystá pro další cenzy v budoucnosti.

Jak jste spokojen s dosavadním průběhem sčítání?

Zatím jsem spokojený hodně. Počáteční problémy s online systémem se podařilo vyřešit během jednoho dne a pak už vše běželo naprosto bezproblémově. Potěšily mě také kladné ohlasy od lidí, kteří chválili srozumitelnost a snadnost vyplnění elektronických formulářů.

Terénní práce byly poznamenány protiepidemickými opatřeními, ale i přesto se je podařilo zorganizovat a provést bez větších komplikací. Spolupráce s Českou poštou byla z mého pohledu vynikající.

Kolik vyplněných formulářů bylo nakonec odevzdáno?

Celkem máme 4 217 261 online formulářů a téměř 812 tisíc listinných. Počet listinných se ještě upřesní po jejich kompletním naskenování, ale budou to už jen velmi malé odchylky.

Jsem rád, že výrazně převážila online forma, která byla jednodušší pro respondenty a také bude snadnější pro další zpracování.

Objevily se nějaké lokality či skupiny obyvatel, ve kterých bylo sčítání složitější?

Ke komplikaci došlo u seniorů, kteří mají ještě staré knížkové občanské průkazy a chtěli se sečíst elektronicky. Jejich průkazy totožnosti nejsou vedeny v systému základních registrů, takže se nemohli ve formuláři identifikovat. I to se však ve spolupráci s Ministerstvem vnitra podařilo vyřešit a těmto lidem jsme online sečtení umožnili.

Pro cizince byly online formuláře v sedmi jazykových mutacích, pro sluchově postižené jsme uspořádali několik seminářů a zajistili asistenty a překladatele do českého znakového jazyka a webové stránky sčítání byly přizpůsobeny i pro zrakově postižené. Díky této přípravě žádný vážný problém se specifickými skupinami obyvatel nenastal.

Mgr. Robert Šanda

Vystudoval geografii a kartografii na Masarykově univerzitě v Brně. Do ČSÚ nastoupil v roce 2004 do oddělení sociálně demografických analýz. Od roku 2006 se zabývá problematikou sčítání lidu, především otázkou využití registrů ve sčítání. Tomuto tématu se věnuje i v odborné publikační činnosti. Od roku 2017 je ředitelem odboru statistiky obyvatelstva.

Letošní sčítání využívá poměrně hodně dat ze státních registrů a databází. Jak náročné bylo spojit tato administrativní data s údaji ve sčítacích formulářích?

Vše jsme samozřejmě testovali v rámci zkušebního sčítání loni na podzim, ale skutečný stav, jak jsou data konzistentní, zjistíme až při jejich zpracování během následujících měsíců. Informace o tom, že se někdo narodil, změnil rodinný stav a podobně, dobíhají do registrů s určitým zpožděním. My tedy musíme nějakou dobu počkat, až tam budou všechny údaje platné k rozhodnému okamžiku o půlnoci z 26. na 27. března, a také je třeba uspořádat a pročistit data z formulářů. Teprve poté, až začneme formuláře s registry propojovat, budeme vidět, nakolik si data vzájemně odpovídají a jak závažné budou případné nesrovnalosti či rozdíly.

Co se děje s vyplněnými formuláři nyní?

Elektronické formuláře jsou uloženy v našem cenzovém informačním systému, kde probíhají různé logické a technické kontroly. Zjišťujeme, zda je vyplněno všechno, co vyplněno být mělo, jestli jsou data ve správných formátech a podobně.

Zpracování listinných formulářů je mnohem složitější. Teď probíhá jejich strojové skenování a převod vyplněných informací do digitální podoby. Když automat nedokáže nějaký zápis převést, nastoupí člověk, který text z naskenovaného formuláře přepíše ručně. Tato fáze je časově velmi náročná, provádí ji Česká pošta a bude trvat několik měsíců.

Po kontrolách online formulářů a digitalizaci listinných musíme získaná data vyčistit a standardizovat. Například adresa může být zapsána několika různými způsoby, nějaký údaj v ní může chybět, v řadě formulářů je jiné pořadí osob v části za byt a pak za jednotlivé členy domácnosti, jména týchž osob mohou být uvedena v odlišné podobě, někdo dopsal nějaký údaj na okraj listinného formuláře mimo vymezené pole…

Po očištění a převedení dat do standardizované podoby probíhají ještě logické kontroly, jestli třeba někdo nemá doktorské vzdělání ve 13 letech a podobně. Následně data z formulářů spojíme s informacemi z registru obyvatel, a pokud je někdo sečten vícekrát, vybereme tu verzi formuláře, která je věrohodnější. U elektronických formulářů to zpravidla bývá ten odeslaný později, ale máme řadu dalších pravidel, která nám pomáhají vybrat správně.

Můžete nějaké takové pravidlo přiblížit?

Například když je někdo uveden ve formuláři jako jeden z členů domácnosti, který je v seznamu osob na třetím či čtvrtém místě, a v jiném formuláři je uveden sám na jiné adrese. V takovém případě věříme spíš údajům ze samostatně vyplněného formuláře, protože je pravděpodobné, že ho dotyčný vyplnil osobně. Stává se to třeba v situaci, kdy rodiče uvedou syna ve své domácnosti, ale on studuje, bydlí na koleji nebo v pronajatém bytě a sečte se také samostatně.

Kdy budou data z formulářů připravena pro statistické zpracování?

Vše záleží na tom, jak rychle se podaří zvládnout všechny předchozí fáze, o nichž jsem hovořil. První výsledky bychom měli publikovat na přelomu roku.

Do té doby tedy žádné informace k dispozici nebudou?

Chceme průběžně informovat o tom, v jaké fázi zpracování dat se nacházíme, takže zájemci budou vědět, jak celý proces pokračuje. A protože velká většina respondentů se sečetla online a zpracování online formulářů je rychlejší, rádi bychom ještě před celkovými výsledky zveřejnili podrobnější údaje o tom, jací lidé se zúčastnili online sčítání. Třeba kolik mezi nimi bylo seniorů, jaké měli vzdělání a podobně.

Nebudeme ale publikovat žádné předběžné výsledky, které by se postupně zpřesňovaly, jako tomu bylo při minulém sčítání. Všechny údaje budou definitivní.

V jaké formě budou výsledky sčítání publikovány?

Budou to zejména uživatelsky definované výstupy. Uživatelé si budou moci navolit kombinaci různých kritérií, třeba pohlaví, věk, vzdělání a velikost bydliště, a podle nich zobrazit výsledky. Výběr kritérií bude poměrně široký, i když samozřejmě nepůjde porovnávat úplně všechno. Bylo by to technicky nesmírně náročné a vznikaly by nesmyslné kombinace. Velký důraz budeme klást na otevřená data.

Chceme také využít toho, že sčítání nabízí pohled ve velkém územním detailu, jaký nemůže zajistit žádné výběrové šetření. Mnoho dat proto budeme zobrazovat v mapách.

Naším cílem je, aby vyhledávání údajů fungovalo rychle a aby uspokojilo většinu uživatelů. Pokud bude odůvodněný zájem, jsme určitě připraveni zpracovat i specifické výstupy nad rámec běžně publikovaných dat.

Velký územní detail zvyšuje riziko, že na malých územích bude možné ze zveřejněných údajů nepřímo identifikovat některé osoby. Jak se tomu dá zabránit?

Používají se různé metody. Po minulém sčítání jsme za malé územní celky publikovali jen souhrnné údaje, ale žádné detaily. Ty byly k dispozici až pro větší lokality, kde už nelze identifikovat konkrétní domácnost nebo osobu.

Nyní zkoumáme další možnosti, kdy se například prohodí domácnosti podobného typu mezi sousedními územními jednotkami. Tím vznikne určitý šum, který nemá vliv na celkový výsledek, ale rozostří nejpodrobnější detail a zabrání identifikaci. Ochraně osobních dat tedy věnujeme patřičnou pozornost přesto, že informace ze sčítání nepatří k těm nejcitlivějším. Většinu z nich lidé o sobě navzájem znají.

Na jaké výsledky letošního cenzu jste nejvíce zvědavý?

Jsem původem geograf, takže mě vždycky zajímaly prostorové vazby, například dojížďka do zaměstnání či do školy. V minulém sčítání jsme také poprvé použili koncept obvyklého pobytu a porovnávali rozdíly proti pobytu trvalému. Jsem zvědavý, jak se to za deset let posunulo. Pro obce v zázemí velkých měst se jedná o velmi důležitá data, protože za osoby, které nejsou přihlášené k trvalému pobytu, obec nepobírá daňové příjmy. V periferních oblastech se zase ukáže rozsah problému vylidňování, protože řada zejména mladých lidí zde má sice trvalé bydliště, ale skutečně žijí a pracují někde jinde.

Čím je nízká ochota přihlašovat se k trvalému pobytu způsobena?

Příčin je několik, ale jednou z hlavních je podle mého názoru byrokratická náročnost změny bydliště. Třeba v Nizozemsku stačí nahlásit novou adresu telefonicky nebo e-mailem. Úřad tuto informaci zašle vlastníkovi nemovitosti, a teprve když nastane problém, tak se začne řešit. U nás jste a priori podezřelý a musíte nejprve úřadu prokázat, že nelžete. A po nahlášení nového pobytu musíte řešit výměnu občanského průkazu, případně i dalších dokladů. Lidé nechtějí toto martyrium podstupovat, protože jim nepřinese adekvátní výhody.

V budoucnu prý má probíhat sčítání každý rok…

K tomu se nyní připravuje nové nařízení v rámci Eurostatu. Záměrem je od roku 2024 provádět sčítání každoročně, ale v omezenějším rozsahu. Týkalo by se dat, která je možné získat z administrativních zdrojů. U nás bychom takto mohli sledovat třeba ekonomickou aktivitu obyvatel. Ale složení domácností už nezjistíme, protože v registru obyvatel jsou pouze adresy domů. V paneláku jsou tak všichni evidováni na jedné adrese a my nevíme, kdo s kým žije a jak velký mají byt.

Návrh nového nařízení tedy počítá s tím, že velké sčítání v původním rozsahu by pokračovalo dál v desetiletých intervalech a ta každoroční by se týkala jenom obyvatel, nikoliv domácností, a jen určitých témat.

Co budete dělat, až zveřejníte výsledky letošního sčítání a vyberete si zaslouženou dovolenou?

Vždycky to bylo tak, že v čase, kdy jsme publikovali výsledky, už jsme měli plnou hlavu příštího sčítání. Příprava cenzu je velice náročná a zahrnuje řadu oblastí od legislativy přes technologie a statistické metody až po marketing a komunikaci. Teď to bude stejné, navíc umocněné tím, že se blíží rozjezd těch každoročních malých sčítání.

Rozhovor si můžete přečíst také v časopisu Statistika&My.