# 1: Obhajoba nereprezentativních vzorků a poprava Špekonomie

31. ledna 2023
# 1: Obhajoba nereprezentativních vzorků a poprava Špekonomie

„Když vidí Marcela Augustová graf, tak se nemůže udržet, aby ho neokomentovala,“ zaznělo 28. 1. v 15.14 na ČT24. Datažurnál je newsletter pro všechny, kteří se nemůžou udržet, aby se nezačali ptát, jak a v čem je ten graf udělaný, proč vypadá zrovna takhle a kde se dají stáhnout data.

Jsme Samizdat, datový tým Českého rozhlasu. V newsletteru Datažurnál vám pravidelně – zatím jednou za měsíc – ukážeme, na čem jsme dělali a na čem děláme, co dobrého jsme přečetli či poslechli a jaká pozoruhodná data a nástroje jsme objevili, popřípadě vyrobili.

Napsali jsme

V lednu jsme pro iROZHLAS.cz psali hlavně kód, aby měli kolegové a kolegyně vždy aktuální widgety a grafy. Podepsaní jsme pod těmito články:

Delší čtení

Servisní články a interaktivní aplikace

Přečetli jsme

Jak s délkou vztahu narůstá množství toxických projevů

  • Jak se liší vztah po třech měsících a vztah po šestnácti letech? Z výzkumu mezi 14 tisíci čtenáři a čtenářkami svého blogu se odpovědi snaží vypreparovat bloggerka (a obecně pozoruhodná osobnost, o které se psalo i v českém bulváru) Aella. Nepřekvapivé: respondenti a respondentky spolu mají stále méně a méně sexu. Pro někoho překvapivé, pro někoho ne: hádek s časem přibývá, nicméně přibližně po dvou letech vztahu jejich množství růst přestane. (Hot take: páry dosáhnou rovnovážného stavu: kdo se hádá ještě o trochu víc, rozejde se a ve statistikách není.) Překvapivé: zhruba po deseti letech prudce narůstají některé ukazatele toxicity. Průzkum je nutné brát s porcí skepse, neboť jde o dotazník niche blogu o sexu. Vedle toho nevíme, nakolik grafy popisují proměnu konkrétních vztahů v čase, a nakolik proměnu společnosti v posledních šestnácti letech: nejedou páry seznámené v roce 2006 celou dobu podle toxičtějších pravidel než ty nové? Na druhou stranu málokdy dostanete k podobnému materiálu i zdroják analýzy. (A taky data, odkaz ovšem nějak nefunguje.)

  • Aella samotná metodu internetových dotazníků hájí: kusá data jsou lepší než žádná. Zastává se jich (a dokonce i přímo jí) taky Scott Alexander: bez selekčního biasu to zkrátka nejde a i nereprezentativní vzorky toho mohou mnoho prozradit například o korelacích.

  • Malý vzorek, strašidelné výsledky: výzkumníci z kanadského města Guelph přinesli do 16 počítačových servisů laptop s úmyslně vypnutým ovladačem zvuku a do 11 laptop na výměnu baterie. Při opravě zvuku se v 6 z 16 poboček vrtali v soukromých souborech, které nebyl důvod otevírat, a při výměně baterie v 10 z 11 poboček požadovali heslo k systému, který nebylo nutné startovat.

  • Některé činnosti dávají lidem smysl, některé je baví. Čas strávený s dětmi, se kterými nesdílíte domácnost, je zábavný a naplňující zároveň, vychází z nepříliš transparentní, ale o to líbivější analýzy dat z American Time Use Survey. Jinak řečeno: je větší sranda být strýc než táta a teta než máma.

  • Mohli bychom obecnou umělou inteligenci naučit pouze na textových korpusech podobně jako GPT-3? Argumenty proti, argumenty pro. Jeden argument pro je nápaditý a silný: analýza výnosů cenných papírů může mít jen pár megabajtů, přesto v ní ale bude zkomprimované přesvědčení i praktická rozhodnutí milionů investorů. A co jsou burzovní data proti všemu, co kdy lidé napsali?

  • Podcast If Books Could Kill popravuje nonfiction bestsellery, „které si na letišti kupují lidé, co si zapomněli nabít čtečku“. Výborný je díl o Freakonomics, která u nás vyšla jako Špekonomie: co všechno Steven D. Levitt a Stephen J. Dubner vyčetli z dat blbě?

Dovolili jsme si

Napadlo nás, že by bylo hezké doplňovat newsletter třeba tipy na knihy o datech nebo statistice. Jenže tohle je premiéra a zatím toho o vašich chutích moc nevíme. Proto jsme na Goodreads oscrapovali „poličku“ s 1184 knihami o data science a uložili ji jako tabulku, kterou si můžete filtrovat podle klíčových slov a řadit podle roku vydání, průměrného hodnocení nebo celkového počtu hodnocení – nic z toho Goodreads neumí.

Když už jsme v tom byli, vyrabovali jsme i poličky s knihami o statistice, o programování a o psaní – a poličku s českou literaturou.

Nestyďte se

Máte pro nás tip na téma, data nebo akci? Rádi byste s námi spolupracovali nebo si nás rovnou na něco najali? Pište na [email protected].

Za celý pracovní kolektiv Samizdatu zdraví Michal Kašpárek.

(Ilustrační obrázek vytvořila Stable Diffusion na základě screenu z volebního studia a promptu „a woman journalist merging and fusing with bar charts, retrofuturistic, hallucinogenic, in the style of synthwave, isotype, halftone offset lithograph“.)