# 11: Sešity na čarodějnice

1. prosince 2023
# 11: Sešity na čarodějnice

Jak se dají skrze data zkoumat čarodějnické procesy, v čem spočívá kouzlo Jupyter Notebooku a jak si doma vyčarovat Davida Attenborougha?

Jsme Samizdat, datový tým Českého rozhlasu. Náš listopad byl činorodý. A když jsme obsah zrovna netvořili, pak jsme ho konzumovali.

Nahráli jsme

Venku je druhý díl druhé série našeho podcastu Dataři. Téma byste nečekali: je jím inkvizice. Přesněji jak tuhle pestrou část naší historie uchopit datově a přitom z toho neudělat torturu vědeckého pracovnictva.

Napsali jsme

Jan Boček se nemůže zbavit utkvělé představy, že když bude psát o dopravních přestupcích, státní i městští policisté a policistky je budou řešit. Jak to dopadne, uvidíme v příštích dekádách – pokud Honzu něco nezajede.

Část lidí v autech objíždí lékárny při hledání antibiotik: ta chybí hlavně v Praze.

Část zase rozváží děti do školek. I ty chybí hlavně v Praze, ukazuje seriál článků, ve kterém nám v listopadu ležel Petr Kočí:

Klára Filipová zkazila další hezký příběh fakty: Přeučit se na programátory dokázala desetina z přihlášených horníků. Víc je lákalo řízení a řemesla. Pak se [k transformaci uhelných regionů ještě jednou vrátila], ale tam už snad ani žádný pěkný příběh ke zkažení nebyl.

Ze života a díla Jana Cibulky vybíráme pokračování pořadu Antivirus:

Michal Kašpárek pokračoval ve svém životním projektu poskytovat příliš podrobné odpovědi na otázky, na které se nikdo neptá. V hitparádových žebříčcích identifikoval vánoční písně a varoval před jejich pravidelným nástupem s koncem listopadu. Také pátral po tom, která sezona Formule 1 byla nejnudnější a proč na špičku žebříčku patří ta letošní.

Přečetli jsme

Droply nové verze JupyterLabu i Jupyteru, se kterými několik z nás pracuje při scrapování, čištění a exploraci dat. Fajn příležitost připomenout zlatá pravidla pro udržování přehledných a praktických sešitů.

Ale možná úplně nejdřív: proč máme Jupyter tak rádi? V čem je pro stejnou práci lepší než Excel?

  1. Atmoška. Prokousávat se v Jupyter sešitech datasety je jako prokousávat se daty nebo si pohrávat s jinou tvůrčí výzvou v klasickém papírovém notesu. Chvíli píšete, chvíli počítáte, občas něco vlepíte, jindy vystřihnete. Sešity jdou s proudem myšlenek, zatímco tabulky mnohdy proti němu.

  2. Dokonalé oddělení dat a výpočtů. Když úřad vydá CSV s údaji za další měsíc, šupnete s ním do složky data a vše hned proletí pipelinou až k aktualizaci výsledků. V jiném projektu vylepšíte kód pro generování grafů, vkopírujete ho do složky src nebo aktualizujete přes pip a máte to krásný i tam i tady.

  3. Snadné generování srozumitelných výstupů. Kdo není při práci úplné čuně, může sešit s grafy a psanými komentáři uložit do PDF nebo HTML a poslat daty nepolíbenému spolupracovnictvu.

  4. Je to jednodušší než Excel. Uznáváme, diskutabilní bod, protože Excel si neinstalujete z příkazové řádky. Ale i když je s tím na začátku trochu patlání, k relativně pokročilé práci s daty se s Jupyterem dostanete rychleji. A to díky mnoha veřejným sešitům k prostudování, schopnosti ChatGPT generovat good enough kód v Pythonu nebo prostě proto, že se v sešitech snáz dostanete do flow. Bacha – je to trochu jak hrát automaty.

Sledujeme klauniádu v OpenAI, organizaci provozující ChatGPT nebo DALL·E, ale ke spekulacím o důvodech odvolání Sama Altmana se nepřipojíme. Raději odkážeme na pěkný dlouhý portrét, který pro New York Magazine napsala Elizabeth Weil.

Skutečně neumí velké jazykové modely z informace o tom, že A je B, spolehlivě vyvodit, že B je A? Po existenci „reversal curse“ pátrá Andrew Mayne.

Máme rádi Signal. Signal ale potřebuje peníze, možná i ty vaše. Co je na poskytování bezpečného komunikačního kanálu tak drahé, vysvětlují Meredith Whittaker a Joshua Lund.

Hezká AI hříčka: Charlie Holtz přiměl pythoní skript k tomu, aby počínání před webkamerou komentoval hlasem a slovníkem dokumentaristy Davida Attenborougha. „Pozorujeme jedince vyspělého druhu homo sapiens při rituálu doplňování tekutin. Samec drží kulatou nádobku, pravděpodobně naplněnou životadárnou H2O, a zkušeně ji pozvedá ke svému ústnímu otvoru.“

Jeden z českých pionýrů využití dat v ledním hokeji, Honza Morkes, píše na Livesport.cz o současném stavu využití dat v ledním hokeji.

Co je tak fascinujího na borci, který kope tunel odnikud nikam? – ptá se Dynomight, a i když to není o práci s daty, vlastně je to hodně o práci s daty.

Školili jsme

Honza Cibulka předal zlatá doporučení pro vyšší kyberbezpečnost frekventantkám iniciativy Ženy v médiích a s Honzou Bočkem prováděl zákroutími datové novinařiny v programu Achillova Data. Michal Kašpárek seznámil s praktickými možnostmi GPT pracovnictvo výroby České televize.

Připravujeme

Příští týden vychází pětidílný seriál článků o hudbě v českých rádiích od Michala a Anety Martínkové (znáte třeba z Vlny nebo z Vinohradské 12. A taky si dáme druhý díl rozstřelu přísad do bramborových salátů, tentokrát s úplně jinou, nicméně opět vánoční tematikou.

Za Samizdat, datový tým Českého rozhlasu přeje co nejklidnější prosinec
Michal Kašpárek


Ilustrační obrázek jsme vygenerovali ve Stable Diffusion promptem „papers full of calculations and charts, illustration in the style of the cover of Unknown Pleasures by Joy Division, high key, high energy, black and white“.