Datový katalog

Rozcestník po našich tabulkách, které by se mohly hodit i ostatním.

Většinu datasetů aktualizujete prostým spuštěním skriptů.

Ceny vlakových jízdenek

Průběžně scrapované nabídky na vnitrostátní i mezistátní vlaky od ČD, RJ, LE a Arrivy.

Seznam papežů

Tabulka s oficiálně uznanými papeži a jejich životopisnými údaji doplněná o pár dalších tabulek: antipapežové, velikost životopisných hesel na Wikipedii, stav kanonizace.

  • celý repozitář: github.com/DataRozhlas/papezstvo
  • podstatný soubor: papezstvo.parquet
  • zdroje: vatican.va, Wikidata
  • háčky: v prvním tisíciletí mlhavá data zvolení i další životopisné údaje, ve sloupcích s daty z vatican.va leckde chybí data úplně
  • poslední aktualizace: květen 2025, po zvolení Lea XIV.

Česká národní bibliografie

Původně jsme scrapovali informace o nových českých knihách z Martinus.cz a průběžně zaznamenávali jejich hodnocení na Goodreads, pak jsme se pustili do zpracování obřích datasetů České národní bibiliografie. Projekt je proto těžší na orientaci, ale odměnou jsou data o milionu plus knih a statisících lidí.

Hitparády a playlisty ČRo

Pestrá data o hudbě, kterou posloucháme / kterou nám pouští veřejnoprávní dramaturgové.

  • celý repozitář: github.com/DataRozhlas/hitparady
  • podstatné soubory: vše ve složce data, zvláště cro.parquet
  • zdroj: Česká národní skupina Mezinárodní federace hudebního průmyslu, Wikidata, Český rozhlas
  • háčky: především obtížné slučování jmen a názvů napříč tabulkami, BEATLES / The Beatles / Beatles atd.
  • poslední aktualizace: hitparády podzim 2023, playlisty ČRo jaro 2025

Všichni kandidující v krajských volbách

Formát: TSV

Zdroj dat →

Data ČSÚ o všech kandidujících v krajských volbách vyčištěné a pospojované do sjednocených tabulek, abyste se s tím nemuseli mořit sami.

  • celý repozitář: github.com/DataRozhlas/kandidatky-kraje
  • podstatné soubory:
    • všichni kandidující z daného roku, např. kand.tsv
    • sjednocený číselník volebních stran cvs.tsv
    • skripty, které si můžete pustit a znovu vytvořit celý dataset z ofiko zdroje
  • háčky: pohlaví kandidujících jsme odvozovali pomocí velkého jazykového modelu ze jména, příjmení a povolání – nemusí to být stoprocentní, ale zatím nikdo nereportoval chybu
  • poslední aktualizace: po volbách 2024

Evropské fotbalové poháry

Oscrapování jednotlivých utkání Ligy mistrů a dalších pohárů z Wikipedie.

Filmový přehled

První velký scrapovací projekt našeho editora Michala Kašpárka: postahování dat o českých filmech z Filmového přehledu provozovaného Národním filmovým archivem. Podle toho to taky vypadá.

  • celý repozitář: github.com/DataRozhlas/filmovy-prehled
  • podstatné soubory:
  • zdroj: Filmový přehled / Národní filmový archiv
  • háčky: mnoho, řada už v původních datech: vyplněnost sloupců se liší napříč léty, chybí část animované
  • nebo dokumentární produkce
  • poslední aktualizace: jaro 2024