Z domova: unikátní data o konspiracích a o české kinematografii. Ze zahraničí: volnočasové dataprojekty plus prima kniha o statistice.
Jsme Samizdat, datový tým Českého rozhlasu. A v červnu dozrály sladké plody našeho jarního datasadaření.
Podobně jako televize, i my s nástupem tropických dní přecházíme k vysílání seriálů. Jde však o čerstvou produkci a nehraje k ní orchestrion, snad ledaže byste ho sami měli v chalupě. (Pokud máte, skutečně vám nevadí, že do ní fičí? K účinkům které drogy byste tuto orchestrionovou apatii přirovnali? Eh… je skutečně horko.)
Honza Cibulka se společně s Tomášem Pikou z iRozhlasu, Josefem Šlerkou z Investigace a odborníky a odbornicemi z Národního institutu SYRI ponořili v projektu Společnost nedůvěry do hlubin konspirací. Už u Rozděleni klimatem (2021) jsme řešili, jestli značku projektu Rozděleni svobodou (2019) nerecyklujeme příliš na sílu, neboť postoji ke klimatu výrazně rozděleni nejsme. U konspirací nezbylo než brand opustit. Jak se totiž ukázalo, v Česku proti sobě nestojí skupina takzvaných dezolátů, kteří sezobnou sebeabsurdnější fake news, a skupina neoblbnutelného občanstva s diplomem za kritické myšlení od Petra Ludwiga. Na nějaké ose si ke konspiračnímu myšlení ujíždí kde kdo a vysvětlení se nabízí docela prosté: schází nám instituce, kterým bychom mohli důvěřovat.
Dobré je začít popisem osmi skupin, které se v populaci podařilo identifikovat. Pak si můžete otestovat, do které z nich sami patříte. Potom už k samotným článkům a povídáním s experty a expertkami:
Konspirace na vzestupu? Ano, pokud lidé v Česku ztratí důvěru v úřady a média
příznivci migračních konspirací chtějí vládu pevné ruky, anticovidová scéna státu nevěří
Ruským dezinformacím věří v Česku jen tvrdé konspirační jádro
Od konspirací k andělům: spiritualita hrozbu neznamená, politická radikalizace ano
Konspirace patří k demokracii, rozklad důvěry ale může umést cestu autoritářům
Na lehčí letní notu hraje seriál ke 125. výročí české kinematografie, který připravil Michal Kašpárek na datech Filmového přehledu, udržovaného Národním filmovým archivem:
Kdy z filmů zmizeli milenci a kdy vrazi? Datové putování po 125 letech české kinematografie
Já jsem se jenom přišla zeptat, jestli máte nominaci na Oscara. Rekordní tváře a hlasy českých filmů
Král Vávra, univerzál Havel. Nestoři, všeumělové a dokonalí profesionálové českého filmu
Klára Filipová spolu s Annou Košlerovou psaly o snaze ministerstva spravedlnosti změnit definici znásilnění, což doplnily poučným vhledem do toho, jak se u nás sexuální násilí vlastně trestá.
Kolem změn v definici znásilnění bylo nakonec mnoho ministerských zmatků, a tak se hodí naposlouchat i aktuálnější rozhovor s Klárou Filipovou a Apolenou Rychlíkovou ve Vinohradské 12.
Do zpravodajského podcastu Českého rozhlasu se dostavil i Jan Cibulka společně s Paulínou Tabery shrnout Společnost nedůvěry.
Opět nejdřív krátce vyřídíme buzzword sezony, tedy AI. „Úzkým hrdlem pro nasazování umělé inteligence do praxe je orchestrování znalostí,“ píše Dan Shipper. Jednak je „orchestrování znalostí“ hezké sousloví, jednak popisuje naši vlastní praktickou zkušenost. GPT umí krásné věci, jenže dostat se k nim znamená krmit ji podrobným kontextem a pak čistit její odpovědi. Oboje chce trochu programování a hodně času a množina úkolů, u kterých se to vyplatí, je navzdory všemu nadšení stále docela malá.
„Chatboti nevědí, čím věci nejsou,“ všímá si Max G. Levy. A Simon Willis vysvětluje, jak velké jazykové modely pracují s tokeny.
Koho baví hrát si s daty a skripty nejen v práci, ale i ve volném čase, může si vyzkoušet zachytit svůj život v jediné tabulce nebo vést v editoru vim kombinaci deníku, quantified self databáze a úkolovníku.
Ještě jeden asi spíš volnočasový projekt: jak dostat z OpenStreetMap hezké plánky roadtripů.
Na Seznam zprávách vyšel pěkný rozhovor s 85letým expertem na jazyk COBOL Vlastimilem Čevelou. „Nutno dodat, že vývojové nástroje, které umožňují profesionálně programovat v COBOLu, byly a jsou hodně drahé. Proto bych jako perličku uvedl, že malý nástroj Cevela MX COBOL free Compiler, který jsem v letech 2006–2013 nabízel na internetu, si zaregistrovali zájemci, asi spíše programátorští kutilové ve více než 40 zemích.“
Jak oscrapovat 250 milionů stránek za 40 hodin a 12 tisíc korun?
Jak se počítají vlny veder? Obtížně, jako všechno.
Pocházejí neidentifikovatelné létající objekty z jiných světů? Blogger Dynomight míní, že spíš asi ne, a vysvětluje to hezkou aplikovanou bayesiánštinou.
A nakonec tip na knihu: The Art of Statistics: How to Learn from Data od Davida Spiegelhaltera je super matro pro ty, na které jsou všechny Jak lhát se statistikou už moc basic, ale zase úplně nepotřebují skripta pro matfyz. Intervaly spolehlivosti, p-hodnoty, regrese, výše naťuknutý Bayesův vzorec a další pojmy vysvětlené lidsky a na neokoukaných příkladech – moc hezké.
Na našem githubu najdete nejenom výpočty k seriálu o českých filmech, ale také zdrojová data o filmech a osobnostech oscrapovaná z Filmového přehledu. Pečlivě si přečtěte dokumentaci, radši si pro orientaci také projděte sešity s kódem pro scrapování a čištění, a můžete začít sami bádat.
Rádi bychom se s novými sezonami pustili do pokrývání kolektivních sportů, zvlášť kopané. (Rozděleni fotbalem? To nezní zle!) Nějaká data si umíme obstarat sami oscrapováním veřejných zdrojů, ale to jsou spíše ta méně zajímavá – zdá se například, že se takto nelze jednoduše dostat k neproměněným penaltám. Protože jsme v oboru nováčky podobně jako SK Hanácká Slavia Kroměříž ve 2. lize, rádi bychom se zde do pléna zeptali, zda nemáte data lepší. Ať už by šlo o dobrovolnický projekt, ke kterému bychom snad mohli také nějak přispět, nebo o komerční podnik, pokud by nebyl pro datařstvo veřejnoprávního rozhlasu příliš drahý. Ozvat se nám můžete na [email protected] – díky!
A pak se samozřejmě také chystáme na prázdniny. Rozeslání červencového Datažurnálu bychom proto s dovolením zatím nechali otevřené, raději vás příjemně překvapíme než zklameme. Přejeme klidné léto u hobbyprojektů v RStudiu, Pandas či Excelu také vám a za měsíc až za dva ahoj!
Za celý pracovní i volnočasový kolektiv Samizdatu, datového týmu Českého rozhlasu zdraví Michal Kašpárek
Ilustrační obrázek jsme opět vygenerovali ve Stable Diffusion, a to promptem „a woman working on a laptop inside a wooden cottage, low key, low energy, Ilford HP5 Plus @800 ISO“