„Když vidí Marcela Augustová graf, tak se nemůže udržet, aby ho neokomentovala,“ zaznělo 28. 1. v 15.14 na ČT24. Datažurnál je newsletter pro všechny, kteří se nemůžou udržet, aby se nezačali ptát, jak a v čem je ten graf udělaný, proč vypadá zrovna takhle a kde se dají stáhnout data.
Jsme Samizdat, datový tým Českého rozhlasu. V newsletteru Datažurnál vám pravidelně – zatím jednou za měsíc – ukážeme, na čem jsme dělali a na čem děláme, co dobrého jsme přečetli či poslechli a jaká pozoruhodná data a nástroje jsme objevili, popřípadě vyrobili.
V lednu jsme pro iROZHLAS.cz psali hlavně kód, aby měli kolegové a kolegyně vždy aktuální widgety a grafy. Podepsaní jsme pod těmito články:
Jak se liší vztah po třech měsících a vztah po šestnácti letech? Z výzkumu mezi 14 tisíci čtenáři a čtenářkami svého blogu se odpovědi snaží vypreparovat bloggerka (a obecně pozoruhodná osobnost, o které se psalo i v českém bulváru) Aella. Nepřekvapivé: respondenti a respondentky spolu mají stále méně a méně sexu. Pro někoho překvapivé, pro někoho ne: hádek s časem přibývá, nicméně přibližně po dvou letech vztahu jejich množství růst přestane. (Hot take: páry dosáhnou rovnovážného stavu: kdo se hádá ještě o trochu víc, rozejde se a ve statistikách není.) Překvapivé: zhruba po deseti letech prudce narůstají některé ukazatele toxicity. Průzkum je nutné brát s porcí skepse, neboť jde o dotazník niche blogu o sexu. Vedle toho nevíme, nakolik grafy popisují proměnu konkrétních vztahů v čase, a nakolik proměnu společnosti v posledních šestnácti letech: nejedou páry seznámené v roce 2006 celou dobu podle toxičtějších pravidel než ty nové? Na druhou stranu málokdy dostanete k podobnému materiálu i zdroják analýzy. (A taky data, odkaz ovšem nějak nefunguje.)
Aella samotná metodu internetových dotazníků hájí: kusá data jsou lepší než žádná. Zastává se jich (a dokonce i přímo jí) taky Scott Alexander: bez selekčního biasu to zkrátka nejde a i nereprezentativní vzorky toho mohou mnoho prozradit například o korelacích.
Malý vzorek, strašidelné výsledky: výzkumníci z kanadského města Guelph přinesli do 16 počítačových servisů laptop s úmyslně vypnutým ovladačem zvuku a do 11 laptop na výměnu baterie. Při opravě zvuku se v 6 z 16 poboček vrtali v soukromých souborech, které nebyl důvod otevírat, a při výměně baterie v 10 z 11 poboček požadovali heslo k systému, který nebylo nutné startovat.
Některé činnosti dávají lidem smysl, některé je baví. Čas strávený s dětmi, se kterými nesdílíte domácnost, je zábavný a naplňující zároveň, vychází z nepříliš transparentní, ale o to líbivější analýzy dat z American Time Use Survey. Jinak řečeno: je větší sranda být strýc než táta a teta než máma.
Mohli bychom obecnou umělou inteligenci naučit pouze na textových korpusech podobně jako GPT-3? Argumenty proti, argumenty pro. Jeden argument pro je nápaditý a silný: analýza výnosů cenných papírů může mít jen pár megabajtů, přesto v ní ale bude zkomprimované přesvědčení i praktická rozhodnutí milionů investorů. A co jsou burzovní data proti všemu, co kdy lidé napsali?
Podcast If Books Could Kill popravuje nonfiction bestsellery, „které si na letišti kupují lidé, co si zapomněli nabít čtečku“. Výborný je díl o Freakonomics, která u nás vyšla jako Špekonomie: co všechno Steven D. Levitt a Stephen J. Dubner vyčetli z dat blbě?
Napadlo nás, že by bylo hezké doplňovat newsletter třeba tipy na knihy o datech nebo statistice. Jenže tohle je premiéra a zatím toho o vašich chutích moc nevíme. Proto jsme na Goodreads oscrapovali „poličku“ s 1184 knihami o data science a uložili ji jako tabulku, kterou si můžete filtrovat podle klíčových slov a řadit podle roku vydání, průměrného hodnocení nebo celkového počtu hodnocení – nic z toho Goodreads neumí.
Když už jsme v tom byli, vyrabovali jsme i poličky s knihami o statistice, o programování a o psaní – a poličku s českou literaturou.
Máte pro nás tip na téma, data nebo akci? Rádi byste s námi spolupracovali nebo si nás rovnou na něco najali? Pište na [email protected].
Za celý pracovní kolektiv Samizdatu zdraví Michal Kašpárek.
(Ilustrační obrázek vytvořila Stable Diffusion na základě screenu z volebního studia a promptu „a woman journalist merging and fusing with bar charts, retrofuturistic, hallucinogenic, in the style of synthwave, isotype, halftone offset lithograph“.)