# 24: Ať máte nový rok plný sidequestů

2. ledna 2025
# 24: Ať máte nový rok plný sidequestů

Protože není krásnější ocenění než „To ale muselo dát práce! A přitom taková blbost.“ A tento newsletter je takových blbostí plný.

Jsme Samizdat, datový tým Českého rozhlasu. Ty nejhezčí věci v tomhle Datažurnálu, stejně jako ve většině předchozích, jsou naše i cizí sidequesty. (Pro ty, kteří nehrají RPGčka: je to ta část hry, kterou není nezbytně nutné odehrát, ale může vaší postavě přinést různé výhody a vám potěšení.) Tak bychom jich i vám do nového roku chtěli popřát co nejvíc.

Napsali jsme

Honza Boček se v prosinci vylevelil na Helenu Třeštíkovou datové žurnalistiky: vypustil své časosběrné (datosběrné?) dílo, pokrývající deset let (ne)odtahování špatně zaparkovaných aut v Brně. Tldr: městská odtahovka už několik let dostává paušální odměnu bez ohledu na množství odtažených aut, které nepřekvapivě pokleslo na polovinu, což odpovídá obecně větší toleranci městské policie k dopravním přestupkům. A to zase koresponduje s tím, že v Brně na rozdíl od jiných velkých českých měst neubývá mrtvých ani zraněných při dopravních nehodách.

„Mohli bychom se podívat do šuplíků, co bychom do konce roku ještě rádi stihli udělat hezkého,“ nadhodil v říjnu Petr a Michal vytáhl nápad na průběžné scrapování cenových nabídek různých železničních dopravců a jejich následné vyhodnocení. Ukázalo se, že při jízdě mezi Prahou a Ostravou není žádný předstih nákupu dostatečně velký, na některých vzácných trasách se naopak vyplatilo čekat. Oscrapovaná (a nárazově aktualizovaná) data lze stáhnout z našeho githubu a pak s nimi třeba debunkovat různá velkohubá tvrzení, třeba když Novinky.cz píší „vlak do Drážďan stojí tisíce“, což je, jako obvykle, složitější.

Honza Cibulka pokrývá pomalý start elektronické tvorby právních předpisů.

Petr a Michal spíchli již tradiční vánoční a silvestrovské blbinky. V té vánoční se nám s pomocí možná i vašeho klikání podařilo odhalit, že nejpopulárnějším vánočním cukrovím jsou včelí úlky čili vosí hnízda, kdežto nejdéle zůstane na patrových talířích ležet sněhové pečivo. Za interpretaci výsledků opět děkujeme psychometrikovi Hynkovi Cíglerovi. Silvestrovská kalkulačka vám zase ukáže, ke kterým historickým událostem už je od vašeho narození blíže na časové ose než k dnešku. Například čerství třicátníci už jsou na světě víc než půlku doby, co má Kanada vlajku s javorovým listem. Přitom mladí lidé, řeklo by se.

Přečetli jsme

Státotvornost. Málokdo si na tenhle osobnostní rys ještě vzpomene – dospělí lidé jej nepoptávají na seznamkách, děti jej nevídají ve svém slovním hodnocení. Jakub Jetmar státotvorný je – zvlášť, když se pustí do dlouhé eseje o veřejnoprávních médiích v éře digitálních platforem:

Přál bych si co nejpestřejší mediální krajinu se silnými soukromými vydavatelstvími i malými tvůrci, kterým předplatná zajistí pohodlnou obživu. Jen nemyslím, že nás tam může dovést škrcení veřejnoprávních médií. To už bych se mnohem spíš ptal na vládě, proč české domácnosti stále utrácí méně než před pěti lety – to je skutečný skandál, který souvisí s ochotou předplácet média či tvůrce.

Parkovací plochy ve Stodůlkách

Mocný král Šahrijár se rozhodl za svítání popravit architekta Petera Bednára. Peter se zkusil zachránit tím, že králi celou noc vykládal zajímavosti o parkovacích místech v Praze – a Šahrijár si ani nevšiml, že už je slunce vysoko na obloze. Pak vykládal další noc, ještě jednu a nakonec z toho byla tisíc a jedna noc povídání o milionu+ pražských parkovacích míst. Peter ta místa mimochodem ručně spočítal a narazil při tom na pozoruhodné věci, jako je socha Michaela Jacksona na zahradě mateřské školy.

Americké krávy nadojí v roce 2024 tolik mléka, že jím pokryjí 10 procent kalorického příjmu Američanů a Američanek a ještě zbude na export. Jared Hutchins ve Work in Progress popisuje příběh ne nepodobný tomu o datové revoluci v baseballu, který zaznamenala kniha a film Moneyball: vysoce užitkové dojnice by se nepodařilo vyšlechtit bez velmi důmyslného přemýšlení nad statistikami.

Tip na (po)silvestrovskou zábavu: po vzoru japonské honorace si můžete nabízet pět vzorků kadidel k očuchání a pak si dávat body za to, které stejné vůně jste správně spojili. (Všech pět vzorků může být stejné kadidlo, všech pět kadidel může být různých.) My to však nesdílíme kvůli zhýralé zábavě, ale kvůli hezkému programátorskému cvičení: jednotlivá hráčská hodnocení se zaznamenávají efekt(iv)ní notací Genji-mon, kterou lze efekt(iv)ně naládovat do Pythonu.

Morry Kolman vytvořil web Traffic Cam Photobooth, přes který si lze stáhnout selfie z dopravní kamery, pod kterou zrovna stojíte. Nám to přijde roztomilé, ale newyorské radnici ne a Morryho popotahuje.

Do 13. ledna si lze v pražské Kunsthalle prohlédnout výstavu Strange Attractions londýnského kolektivu United Visual Artists. „Pro svou první pražskou výstavu zvolili téma teorie chaosu. Využívají ji ke zkoumání vzniku vzorců a reality doby velkých dat, strojového učení a umělé inteligence,“ píše kurátorský text. Expozice je to fotogenická (část děl vypadá jako terminál, což je nejkrásnější věc v dosud prozkoumaném vesmíru) a místy vtipná (v přímém přenose lze vedle sebe sledovat vývoj metrik jako počet lidí cestujících pražským metrem či tuny šneků zkonzumovaných ve Francii). Ale zase: sledujete Datažurnál, takže jste viděli i nápaditější věci postavené na datech a AI a ani jste kvůli nim nemuseli přispět třemi stovkami na art washing fosilního miliardáře. Takže vám to ponecháváme ke zvážení.

Vyzkoušeli jsme

Čuráme maggi v kostkách z knihovny pro práci s dataframy Polars. Na počátku seznamování stála skutečnost, že pandas potřebují pro načtení tabulky několikrát víc paměti, než zabírá na disku zdrojové CSV. Polars tohle díky línému načítání netrápí. Jenže to není všechno:

  • Polars je výrazně rychlejší. V našich všedních scénářích dvakrát až stokrát (to u spojování složky plné souborů do jediného dataframu). Jednak proto, že je Polars napsaný (napsaná? jsou napsané? zrovna tady by se preferovaná zájmena hodila) v Rustu a nestojí na jiných pythonovských knihovnách. Jednak proto, že na rozdíl od pandas umí využít všechna jádra procesoru najednou. Pak to zmíněné líné načítání plus optimalizace queries. Zkrátka, švihá to. Člověku se chce až plakat při pomyšlení na všechno to čekání, které nemuselo být.

  • Polars mají (ok, nejlíp zní plurál) čitelnější a pochopitelnější syntaxi. Ruku na srdce: nevybrali jsme si Python, abychom pak museli psát df.iloc[:, [True, False, True, False]], což je příklad z ofiko pandí příručky. „Zkusili jsme kvůli rychlosti, zůstali jsme kvůli syntaxi“, říká se mezi konvertovanými.

  • A teď pozor: Polars jsou k dispozici nejen pro Python, ale i pro R a NodeJS. (Nicméně jen v Pythonu si lze užít extra akceleraci s pomocí CUDA.)

  • Možná je to nevýhoda, možná výhoda: protože jde o knihovnu novou, LLMs včetně Claude mají problém vygenerovat funkční kód. Což ale znamená, že máme zase jednou důvod ponořit se do dokumentace a něco nového se naučit. Návodů navíc není úplně málo, viz třeba praktický cheatsheet pro přechod z pandas.

Nemohli jste si nevšimnout, že máme rádi webový archiv Wayback Machine, a to nejenom z nostalgie, ale prostě proto, že při práci často potřebujeme odkazovat na zálohy stránek, které už někdo přepsal nebo úplně smazal. Web Archive má teď bohužel problémy se soudy i s infrastrukturou. Proto jsme vděční za selfhostovaný nástroj ArchiveBox. Není sice náhradou za centrální archiv obecně považovaný za věrohodný, ale decentralizace má taky svoje výhody: obsah můžete zálohovat i v krátkých intervalech a včetně videí.

Dále jsme narazili na hezký, byť reklamní projekt: They See Your Photos vám ukáže, co všechno dokáží provozovatelé cloudů s pomocí AI (pomáhá si dnes někdo ještě něčím jiným?) zjistit z vašich fotografií. Jakkoliv je to varovné, je to i roztomilé: můžete se o sobě například dozvědět, že váš úsměv pro fotografie je v porovnání s tréninkovými daty spíše křečovitá grimasa.

Mimochodem, v prosinci dropnul i model llama3.2-vision, který umí popsat obsah obrázků lokálně, třeba skrz pythonovskou knihovnu Ollama. Je to pomalé – na otagování celého fotoarchivu se netěšte. Taky je to mírně tvrdohlavé a má to (nepřekvapivě) jen minimální přehled o českých reáliích. Ale jako součást nějakého delšího potrubí skriptů to užitečné být může.

Kolik za hodinu zvládnete vyjmenovat českých měst a vesnic s více než 2000 obyvateli? Fascinující hra! Jednak člověka přinutí vyčlenit si hodinu nepřerušovaného času. Jednak je to hodina nečekaně pestrá. V různém pořadí lze vzpomínat na města krajská a okresní, na praobce příbuzných a přátel, na sled stanic různých vlaků, sjezdy z dálnic a čurací zastávky, na místa dovolených a služebních cest, pak na dějiště zločinů, sídla pivovarů či vinařství, lázně nebo na popkulturní reference (Vizovice, Pelhřimov, Humpolec…). Člověk se o sobě taky něco dozví skrz postupně vybarvovanou mapu a závěrečné odhalení největších měst, na která si za celou hodinu nevzpomněl. Za odměnu dostane také porovnání s ostatními. Podle něj se na padesátiprocentní hranici vzpomněli/nevzpomněli nacházejí Blansko, Říčany a Svitavy; nejméně známe jsou Bělkovice-Lašťany a Tišice.

Za Samizdat, datový tým Českého rozhlasu přeje do roku 2025 samé zábavné sidequesty
Michal Kašpárek

Ilustrační obrázek jsme vygenerovali ve Stable Diffusion promptem „a funny side quest, still frame from a 1980s CGA RGP“.