📰 pepíknews crawler
2462článků
3060verzí obsahu
5101snímků
65sekcí
04.07.2026 04:23poslední snímek

Zdraví zdrojů hlídač změn CMS / URL schématu

Deterministická kontrola (bez AI), že u každého webu pořád platí, podle čeho poznáváme článek. Když web změní systém, projeví se to tady dřív, než z toho vzniknou duplicity nebo nám články utečou. Prahy: extrakce ID < 50% nebo mrtvá sekce = alert.

alert: 1 warn: 1 ok: 15

zdrojstavčlánkůID% dup dle IDshodný textnových/24h bez textumedián slovpoznámky
ct24 alert 137 99% 6 58 413 sekce bez článků: Sport; 6 článků se shodným textem (boilerplate/ČTK)
hn warn 63 100% 31 63 49% 360 49% článků bez textu; 31 článků se shodným textem (boilerplate/ČTK)
aktualne ok 138 100% 4 49 1% 652 4 článků se shodným textem (boilerplate/ČTK)
ceskenoviny ok 113 100% 55 331
cnnprima ok 85 100% 85 1% 427
denik ok 159 2 55 3% 392 2 článků se shodným textem (boilerplate/ČTK)
denikn ok 183 100% 183 1132
denikto ok 80 80 417
e15 ok 125 100% 125 496
echo24 ok 105 100% 40 390
forum24 ok 81 81 2% 409
idnes ok 467 100% 2 190 1% 450 2 článků se shodným textem (boilerplate/ČTK)
lidovky ok 190 100% 47 1% 395
novinky ok 224 100% 123 2% 273
parlamentnilisty ok 119 100% 7 49 428 7 článků se shodným textem (boilerplate/ČTK)
reflex ok 43 100% 43 514
seznamzpravy ok 150 100% 67 491

Zdroje bez ID v URL (denik, forum24, denikto) mají ID% „—" — identitu je u nich potřeba dolovat ze stránky (canonical / og:url / JSON-LD). „shodný text" = různé články se shodným extrahovaným textem (boilerplate / agenturní přetisk).