ČSÚ investuje do znalostí v IT

Český statistický úřad se soustavně snaží zvyšovat odbornost svých zaměstnanců. V rovině statistické práce se mu to již mnoho let daří. Složitější situaci čelí však na poli IT, neboť moderní statistika je stále více provázána s informatikou.

Období, kdy specializovaní statistici připravovali designy šetření, zpracování a publikační výstupy, zatímco technologickou stránku zajišťovali často externí IT specialisté, pomalu končí. Stejně jako dostupnost osobních počítačů ovlivnila jejich rozšíření v domácnostech i na pracovištích, tak i obrovské množství open-source nástrojů mění tvář statistiky. Dnes již nepotřebujete drahé statistické softwary, abyste mohli sestavit velmi složité modely. Obdobně je tomu u databází a prezentačních nástrojů. Tyto open-source nástroje se rychle prosazují ve vědecké komunitě a s tím se dostávají i do oficiální statistiky.
Český statistický úřad tradičně velmi úzce spolupracuje s akademickou sférou a sdílí i výzvy v této oblasti. Moderní statistická práce je dnes již jen obtížně představitelná bez alespoň základní znalosti programování a tento trend významně posiluje. Do výbavy datového analytika v tomto smyslu patří schopnost zpracování velkého rozsahu dat, konstrukce statistických modelů a také jejich vizuální prezentace.
Právě k problematice prezentace velkých dat („big dat“) byl Evropskou komisí v Bruselu uspořádán ve dnech 8. až 12. března 2019 European Big Data
Hackathon 2019, kterého se zúčastnili dva experti Českého statistického úřadu a jeden odborník z Vysoké školy ekonomické v Praze. Celkem se účastnilo 17 týmů ze 16 členských států EU.
Hackathon představuje setkání vývojářů a programátorů na jednom místě, kteří mají během krátké doby vytvořit prototypy aplikací podle zadání upřesněného až na místě. Na splnění úkolu měly tentokrát týmy dva dny a jeden večer. Poslední den akce prezentovaly dosažené výsledky v budově Evropské komise během desetiminutových prezentací. Jednalo se o první účast zástupců ČSÚ na takové akci.
Hackathonů jsme se doposud účastnili v roli poskytovatelů zdrojových dat, proto byl pro nás tento ročník výjimečný a účastníci získali velmi cenné zkušenosti.

Deset minut na prezentaci a dost

Čtyřdenní událost začala v pátek uvítací recepcí, kde se týmy seznámily s konkrétní statistickou výzvou, pro kterou vytvářely datový produkt. Ta zněla: „Jak mohou inovativní řešení pro sběr dat snížit zatížení respondentů a obohatit nebo nahradit statistické informace/údaje z průzkumu využití času?“. Nebyla omezena pouze na aktuálně shromážděné informace, ale mohla být rozšířena i o další. Řešení mělo být založeno na relevantních datech, statistické analýze a vizualizaci. Nástroj měl zohlednit i aspekt kvality. Řešení mělo rozšířit statistické informace o další oblasti nebo obohatit stávající oblasti jako např. sociální blahobyt, mobilita a cestování, fyzická aktivita, geografický kontext, sociální prostředí atd. Následující dva dny sestávaly z dlouhého a náročného hackingu s občasnými přestávkami na jídlo a pití, kdy týmy pracovaly na vytvoření prototypu datového produktu. V pondělí 11. března 2019 ráno měly týmy 10 minut na představení svých prototypů. V době oběda odborná porota vyhodnotila všechny prezentace.
Samotná aplikace, kterou účastníci vyvíjeli, mohla využít poskytnuté zdroje big dat a v ideálním případě také oficiální evropské statistiky. Hlavním zdrojem dat byli samotní účastníci, kteří za pomoci mobilní aplikace shromažďovali data (aplikace myBigO, i-Log). Eurostat poskytl přístup k frameworku pro sbírání souřadnic a senzorických dat pořízených chytrými zařízeními. Framework sestává z aplikace pro operační systém Android, která pořizuje data ze vzdáleného serveru, kam se ukládají. Účastníci a případně další dobrovolníci si nainstalovali aplikaci do svých zařízení. Data byla přenášena zabezpečenou cestou ze zařízení na vzdálený server, kde byla uložena odděleně od osobních údajů shromážděných při registraci. Finální datová sada byla k dispozici všem týmům. Eurostat navíc poskytl přístup i k dalším anonymizovaným mikrodatům. Ze široké palety možných nástrojů se náš tým rozhodl pro využití nástrojů Hadoop, Spark, RStudio, Hive a Tableau.
Pro ČSÚ se jednalo o první zkušenost tohoto druhu a doufám, že nebyla poslední. Předpokládám, že se takto vynaložené investice velmi dobře vyplatí, neboť vedou nejen ke zkvalitnění naší práce, ale umožňují nám seznamovat se s možnostmi a limity open-source nástrojů, které mají obrovský potenciál.