# 32: Stránky, body, vteřiny

Jsme Samizdat, datový tým Českého rozhlasu. Po prázdninové pauze jsme zpět s newsletterem, ve kterém najdete jak naši práci, tak práci lidí hledajících odpověď na otázky, jaké my si šetříme až na důchod. Je v pohádkách víc lišek, nebo lišáků? A dají se ptačím zpěvem přenášet obrazová data?

Napsali jsme

Honza Boček sepsal krásný třídílný seriál o české lehké atletice: nastupuje mladá silná generace, ale není vše veselé: mnoho nadějí končí předčasně. Dostalo se i na malou ódu na pozdní talenty.

V srpnu zveřejnil Český statistický úřad kandidátky do sněmovních voleb – ty se budou konat 3. a 4. října. Rychle jsme nalili čerstvé sestavy do našeho několikerými volbami osvědčeného prohlížedla, pomaleji se pak podívali na přeběhlíky.

Klára Filipová napsala o ztroskotaném projektu na stavbu havířovského zimáku, Cíba o bug bounty pro ty, kteří odhalí zranitelnosti v IT systémech ministerstva pro místní rozvoj a Tomáš Pika o rozdílných způsobech, jak počítat podíl populace ohrožený chudobou – pokud se hranice nastaví pro unijní země jednotně, Česko už jako premiant nevychází.

Přečetli jsme

Když člověk jakž takž zbastlí svoji první pipelinu pro scrapování, čištění a analýzu dat například v Jupyter noteboocích, po chvilce pýchy si začne všímat problémů. Musí to být tak pomalé? Nerozsype se to celé, jakmile se změní formát vstupních dat? Pokud ano, dozvím se to nějak? Jak nechat s výsledky pracovat lidi, kteří se nekamarádí s Pythonem? – A přesně do tohohle bodu profesních drah datařstva míří loňská kniha Catherine Nelson Software Engineering for Data Scientists. Je srozumitelná, praktická, stručná, čtivá a aktuální. Doporučujeme bez výhrad.

O dalším letním dohánění knižních restů už jen telegraficky:

Luis G. Serrano: Grokking Machine Learning (2021) – velmi důkladný úvod do strojového učení s učitelem z výborné edice „Grokking…“ od Maningu, takže krátké kapitoly, spousta názorných diagramů, vynikající stravitelnost.
David J. Hand: Temná data: Proč záleží na tom, co nevíme (2020) – pestrý bestiář různých forem děravých či zavádějících dat, výklad však postupně ztrácí tvar i tempo.
John Ousterhout: A Philosophy of Software Design (2018) – naléhavé varování před psaním zbytečně komplexního kódu, postavené ovšem na optimistickém předpokladu, že má člověk v každodenním provozu čas na to se nad celým projektem hluboce zamýšlet.
Darrell Huff: Jak lhát se statistikou (1954) – znovupřečteno po víc než dekádě, tehdy to byl banger, dnes už jsou naštěstí v knihkupectvích aktuálnější knihy o statistické gramotnosti (Nate Silver, Tim Harford, David Spiegelhalter).

Opravdu je pohlaví čistým dílem padesátiprocentní náhody? Skupině vědců a vědkyň to tak ve Science Advances nevychází: disproporční množství rodin má samé dcery či samé syny. To by samo o sobě byla dobrá pikoška pro prolomení ledů na nějakém rodičovském pikniku, ale ještě ne matro pro datařský newsletter. Do něj to dáváme kvůli příkladně poctivé a transparentní úvaze za propočty.

Pudding se podíval do rozkroku pohádkovým zvířátkům: největší zastoupení samců vykazují žabáci, samic ptáčkové. Nebo spíš ptačičky? Ptakyně? Zajímavá je na tom právě konfrontace s českým jazykem i pohádkovým korpusem, která by si zasloužila podobnou analýzu: takhle po paměti máme na rozdíl od anglosasů víc kmoter lišek než kmotrů lišáků.

Max Woolf z BuzzFeedu zkusil předpovídat hodnocení filmů na IMDB na základě metadat. Téma samotné je docela meh, post doporučujeme z jiného důvodu: názorně ukazuje práci s embeddings i scikit-learn.

Ještě jednou hodnocení filmů a zároveň tradiční stýskací okénko po starém dobrém internetu. Daniel Parris na datech ukazuje, že od chvíle, kdy byl agregátor filmových recenzí Rotten Tomatoes zakoupen prodejcem vstupenek Fandango, filmy tam častěji získávají pochvalné souhrnné hodnocení.

Miloš Hroch a Petr Szczepanik bádali, jak se na Spotify daří hudbě ze středněvýchodní Evropy. Platforma, jejíž fyzické zastoupení má těžiště spíše v Evropě západní, jí nepřeje.

Minule jsme naléhali, ať si táhnete svá data z končící služby pro nerušené čtení Pocket, protože jde o cenný osobní archiv. Co se s ním dá taky dělat, ukazuje blogger Noperator: nechal se na základě uložených článků vyprofilovat jazykovým modelem. Zreplikovali jsme, úspěšně. Pokud jste Pocket používali fakt dlouho, LLM vám může podle vaší četby taky povědět, jestli jste během let zmoudřeli, nebo zdědkovatěli. (Data jdou stáhnout do začátku října.)

Dají se ptačím zpěvem přenášet obrázky? Dají! Rozlišení není bůhvíjaké, což nepřekvapí.

Zhlédli jsme

Kai Lentit na YouTube paroduje různé lidi od počítačů: například Cíbu, Petra nebo Michala.

Připravujeme

Od června postupně chystáme appky a materiály ke sněmovním volbám. Od 10. do 12. září si k tomu děláme soukromý hackaton v Brně, takže pokud byste s námi něco chtěli probrat, dejte vědět.

Za Samizdat přeje dostatek dobrého čtení a dobrovolného a radostného pohybu i v září Michal Kašpárek

Ilustrační obrázek jsme vygenerovali promptem „a nerd throwing a javelin on an athletics field, Czechia, glitch art“ ve Stable Diffusion.