Tohle je asi náš nejsušší newsletter. Nevíme to jistě. Patrně by šlo jejich nudnost vyčíslit velkými jazykovými modely a sestavit jakýs takýs žebříček – jenže to už by zavánělo zábavou.
Jsme Samizdat, datový tým Českého rozhlasu. Náš tip na prázdniny? Pokud používáte čtecí aplikaci Pocket, stáhněte si z ní svá data, brzy zmizí. Málo zábavné? Jistě, ale co by bylo léto bez nudy?
Petr Kočí se po čase vrátil k inflaci. Zajímavější než rostoucí cena vajec (slepičích čerstvých) a klesající cena květáku (bílého celého) je bonus v podobě drobné diskursivní analýzy. V poslaneckých projevech od roku 1918 jsou Andrej Babiš (46×) a Petr Fiala (40×) jedinými politiky vedle Vladimíra Putina (8×), po kterých se pojmenovává „drahota“ – paradoxně jedna a ta samá drahota, tedy poslední velká inflační vlna od roku 2022.
Michal Kašpárek hledal odpověď na otázku, která se opakuje každé léto: Proč jsou v televizi zase Chalupáři?. Zjistil také, že Léto s kovbojem nebo Četník ze St. Tropez podle programových oddělení českých televizí typicky letní filmy nejsou.
V podcastu Dataři jsme začali se seriálem o nástrojích, které členové našeho týmu používají. Jako první promluvil Michal o knihovně Polars pro rychlejší a přehlednější práci s daty.
Honza Cibulka promítal do map a grafů článek Jana Kaliby o dopravní chudobě.
Předvolební projekt Rozhlasu Česko 2025 jede dál, s ním i naše rešerše a vizualizace: Jan Boček vs. české zdravotnictví a Petr Kočí a migrace.
Klára Filipová s Tomášem Pikou popsali, jak si havířovský magistrát koupil atletický ovál od zastupitele za ANO za dvojnásobek ceny, za kterou jej před čtyřmi lety prodával atletický klub.
Stáží u nás prošly Nikol Pisoňová a Lucia Farkašová, napsaly o migréně.
Po githubích repozitářích se nám povalují různá data; postahovaná z APIs i oscrapovaná z webů, očištěná-ish i tak křišťálově čistá, že ani křišťál křišťálově čistější být nemůže. Byla by škoda, kdyby je měl někdo scrapovat nebo čistit podruhé, přinejmenším lze ušetřený čas využít k dalšímu dočištění. Pokud byste tedy na nich chtěli postavit něco vlastního, najdete je v našem novém mrňavém datovém katalogu.
Do knih a prezentací o tom, jak je důležité míti data a umět je vizualizovat, neodmyslitelně patří plánek okolí londýnské Broad Street, na kterém měl v roce 1849 lékař John Snow identifikovat studnu, z níž se po Soho šířila cholera. Slavná mapa ale vznikla až o pár let později, Snow si při hledání zdroje onemocnění vystačil s tabulkami a fištrónem. Připomnělo nám to podobnou pidikauzu s diagramem prostříleného letadla, která doprovázívá povídání o klamu přeživších; viz Datažurnál #20.
Určitě už jste zvědaví, kdo nebo co ničí starý dobrý internet tentokrát. A je to (opět) Google, který začal doplňovat výsledky hledání o strojově generované „AI Overviews“ a nehodlá zůstat u nich. Další rána pro internet jako otevřený ekosystém nezávislých webů, píše Thomas Germain pro BBC.
Čím víc proužků, tím víc Adidas? I na počtu pruhů na teniskách testoval schopnosti „vidoucích“ jazykových modelů (vision language models / VLMs) kolektiv výzkumníků a výzkumnic ze čtyř univerzit. Závěr: „VLMs nevidí v pravém slova smyslu; místo z analýzy předložených obrazů vycházejí ze znalostí načerpaných při trénování.“ Proto když jim ukážete adidasky a zeptáte se na počet proužků, odpoví: tři. A když jim ukážete falešné adidasky s pruhy čtyřmi, odpoví opět: tři. Neznamená to, že jsou tyhle nástroje k ničemu – jen je důležité pamatovat na jejich omezení.
Jak ukládat data na papír, aby se jich tam vešlo co nejvíc, s co nejmenší chybovostí a na co nejdelší dobu? Definitivní odpovědi Martin Monperrus nenabízí, ale pár dobrých tipů a odkazy na různé přístupy a nástroje ano.
S daty a papírem souvisí divoce spekulativní pátrání po tom, kam se poděly 11. dny měsíců. Tldr: po nástupu psacích strojů v druhé polovině 19. století, na kterých se jednička psávala a koneckonců stále píše malým elkem, snad prý začaly jedničky i v písmech pro sazbu více připomínat malé l než klasickou jedničku. A voilà, o století a půl později jsou z toho zmatené nástroje pro rozpoznávání textu, takže se při hledání „January xxth“ atp. Google Ngramem nápadně propadají výskyty 11. dne libovolného měsíce – pochopitelně s výjimkou 11. září.
Nečeká vás v létě žádný road trip? Můžete se vypravit aspoň na jeden kolektivní virtuální – a spolu s dalšími lidmi hlasovat, kam má zatočit autíčko na Street View.
Python je samá radost – dokud člověk nepotřebuje spustit svoje skripty jinde než v prostředí, ve kterém je nakódil. To se pak musí vrtat ve virtual environments nebo si hrát s Dockerem, což patří už spíš k frustrujícím zkušenostem. Jakousi radost i do téhle fáze teď vrací uv: rychlý správce balíčků, projektů a dokonce i Pythonu samotného.
Eleganci uv vystihuje příklad popsaný Lukasem Valatkou: řekněme, že potřebujete spustit Python 3.12 a v něm pandas. Bez uv to mohlo vypadat takhle:
pyenv install 3.12
pyenv local 3.12
python -m venv .venv
source .venv/bin/activate
pip install pandas
python
A s uv?
uv run --python 3.12 --with pandas python
Víc ukázek nabízí a do větší hloubky jde blog A year of uv: pros, cons, and should you migrate.
Mozilla zařezává Pocket, aplikaci pro ukládání článků k pozdějšímu přečtení. Pokud ji používáte, svá data si budete moci stáhnout až do začátku října, ale udělejte to raději hned. Takový osobní archiv se neodmítá, i kdybyste s ním neměli žádné bezprostřední plány. Navíc se ty bezprostřední plány vcelku nabízejí: třeba rychlá analýza, ze kterých webů jste si toho kdy uložili nejvíc, anebo stažení všech článků na disk, protože ony na svých urls nebudou viset věčně.
Nepláčeme ale moc: Pocket poslední dobou už snad většinu obsahu zobrazoval špatně či nekompletně, zvlášť pokud byly do textu embedované grafy a podobně. A jsou tu alternativy: komerční Instapaper (zajímavost: s insta-názvem o dva roky předběhl Instagram) nebo self-hostovaný Wallabag s levnou placenou službou pro ty, kteří jej self-hostovat nechtějí.
Za Samizdat, datový tým Českého rozhlasu, se tentokrát na dva měsíce loučí Michal Kašpárek
Úvodní obrázek jsme vygeneroval ve Stable Diffusion promptem „summertime boredom, Czech countryside, glitch art“.