# 29: Jednoduché datové analýzy pro amatéry

31. května 2025
# 29: Jednoduché datové analýzy pro amatéry

Někdo hledá hledá pocit vlády nad světem v programování, někdo v měření. My to střídáme.

Jsme Samizdat, datový tým Českého rozhlasu. A zhruba v tomto čase, na sklonku školního roku, jsme udivovali naše spolužactvo tím, jak dokážeme vypočítat rychlost vlaku z intervalů mezi kilometrovníky. Ale to už zase vzpomínáme na události tři dekády staré, když máme zrekapitulovat letošní květen:

Napsali jsme

Klára Filipová a Jan Boček poskládali pro článek Jany Karasové bestofko dat o českém školství doplněné o výsledky rozhlasového průzkumu veřejného mínění. Sociální sítě rády vytahují nahoru příspěvky vyvolávající silné emoce, a tak může ve všech těch hejtech na Cermat i zřizovatele překvapit, že současná podoba přijímaček na střední školy má podobně velkou skupinu příznivců jako odpůrců. Problém, na kterém se veřejnost nejvíce shoduje: nedostatek míst ve školkách.

Do série Česko 2025 Honza dále přispěl grafy popisujícími výsledky průzkumu o elektromobilitě. A před pár dny vyšel jeho ponor do reformy systému sociálních dávek: Superdávka připraví chudé domácností i o pět tisíc. Trestá lidi ve vysokých nájmech či žijící o samotě.

Honza Cibulka nepřestává sledovat eTuristu: Poslanci navrhují z plánovaného eTuristy vyškrtnout sledování ubytovaných lidí, ubytovatelům pravděpodobně zůstanou i papírové knihy hostů.

Málokterá data jsou tak poetická jako ta vatikánská: cesta časem nazpátek v nich začíná velmi pečlivou úředničinou a končí domněnkami. Mezi úmrtím papeže Františka a zvolením Lea IXV. se v nich vrtal Michal Kašpárek: Tři století bez svatých, pak hned čtyři v rychlém sledu. Papežové více svatořečí předchůdce i vydávají normy. Pak se vrátil ke svému obvyklému tématu: 75 let mistrovství světa jezdců. Formule 1 pronikla z Evropy do světa, stále jí však dominují evropští piloti.

Konstrukce malého úhlového zrcátka (ilustrace z knihy Jednoduchá měření pro amatéry)

Přečetli jsme

Z projevů v americkém kongresu se vytrácejí stopy přemýšlení založeného na důkazech a naopak v nich sílí role pocitů a intuice, píší v Nature Human Behaviour. Zlom nastal, jako u mnoha jiných věcí, v 70. letech minulého století. Jednak zajímavé téma, jednak poučný detailní popis celého bádání, s tipy na nástroje a se zveřejněným kódem.

Umírají lidé častěji v den svých narozenin? Ano. A proč? Na to už The Pudding nenabízí definitivní odpověď, ale někdy je radost už jen sledovat někoho přemýšlet krok za krokem.

Na Towards Data Science vyšlo pěkné stručné vysvětlení pěti statistických pojmů, na které se rádi ptají při pohovorech: p-hodnota, z-skóre, lineární regrese, centrální limitní věta, overfitting a underfitting.

Pravidelná připomínka, že není snadné vzít souřadnice a strojově z nich vyrobit člověku srozumitelnou adresu. Ono to tedy ještě jakž takž jde, když na těch souřadnicích zrovna stojí dům, jenže jakmile slovy chceme přesně zaměřit lavičku v parku nebo kapličku za vsí, hrozí to lidmi brodícími se přes řeku.

Volně související: model OpenAI o3 exceluje v určování míst z fotek, a to i se zfalšovanými EXIF daty.

Už jsme se tu rozplývali nad tím, jak rychle se s daty dělá v knihovně Polars. Není to ale jediná hot rychlá věc: tou další je DuckDB. Její tvůrci v ní teď zkoušeli pracovat s 265gigabytovou databází o několika miliardách řádků na 13 let starém notebooku s 16 GB RAM a ono to jakž takž šlo. Přitom technologie jako vektorizované zpracování dotazů, díky kterým je DuckDB takový blesk, jsme znali už tehdy. Ztratili jsme celou dekádu vývojem distribuovaných řešení pro analýzu “malých” dat? To je snad až moc melancholický závěr autorů – nám naopak přijde hezké, že tu je vedle vší enshittifikace i protiběžný trend stále schopnějších a rychlejších nástrojů, navíc pod volnými licencemi.

Politolog a programátor blogující pod přezdívkou Raf napsal bolestivě výstižný text o hodinách a dnech propálených psaním zbytečného kódu: “Vytvořil jsem celé aplikace jenom proto, abych nemusel přemýšlet nad tím, proč jsem smutný. Programování dává člověku okamžitý feedback. Spustíte skript – a funguje. Nebo nefunguje – tak ho opravíte. V obou případech něco děláte. Ten pocit kontroly je návykový. Zvlášť pokud ho nezažíváte jinde.”

Emocemi souvisejícími s programováním se podobně čtivě zabývá i Fernando Borretti, fascinovaný tím, jak podivně si lidé racionalizují bizarní technologické volby. “Emacs je gnostický kult. A víte co? Je to v pohodě. Vlastně je to super. Pokud z toho máte radost, co si přát víc? Klidně pracujte s divnými, obskurními, nepohodlnými, zastaralými, nemrtvými nástroji, pokud vám to dělá radost. Všichni nakonec umřeme.” (…) “Jen bych to prosil bez těch keců. Ať vás ani nenapadne tvrdit mi do očí, že je SNOBOL jazykem budoucnosti. Nebulíkujte svého šéfa, že jste frontend přepsali v Prologu po racionálním zvážení všech pro a proti.”

Rozdělení průřezu na pět mezikruží (ilustrace z knihy Jednoduchá měření pro amatéry)

V Digitální knihovně jsme tentokrát narazili na roztomilý kousek z Polytechnické knižnice: Jednoduchá měření pro amatéry od Jana Šulce. Jednak se nám líbí její spirit “k práci na přesnějším obraze světa nepotřebujete drahé přístroje z kapitalistické ciziny, stačí vám dojít na středisko pro laťky, hadice, zrcátka a čtverečkovaný sešit”. Jednak se praktické tipy jako kam umístit a neumístit teploměr stále hodí, i když ty drahé přístroje máte. A hlavně je prostě pěkná, patrně především díky grafické úpravě Jitky Galařové. Proto taky tento Datažurnál doprovázíme diagrámky právě odtud.

Za Samizdat, datový tým Českého rozhlasu, vám přeje co nejpřesnější červnová měření Michal Kašpárek