Zdraví zdrojů hlídač změn CMS / URL schématu
Deterministická kontrola (bez AI), že u každého webu pořád platí, podle čeho poznáváme článek. Když web změní systém, projeví se to tady dřív, než z toho vzniknou duplicity nebo nám články utečou. Prahy: extrakce ID < 50% nebo mrtvá sekce = alert.
alert: 1 warn: 1 ok: 15
| zdroj | stav | článků | ID% | dup dle ID | shodný text | nových/24h | bez textu | medián slov | poznámky |
|---|---|---|---|---|---|---|---|---|---|
| ct24 | alert | 137 | 99% | 6 | 58 | 413 | sekce bez článků: Sport; 6 článků se shodným textem (boilerplate/ČTK) | ||
| hn | warn | 63 | 100% | 31 | 63 | 49% | 360 | 49% článků bez textu; 31 článků se shodným textem (boilerplate/ČTK) | |
| aktualne | ok | 138 | 100% | 4 | 49 | 1% | 652 | 4 článků se shodným textem (boilerplate/ČTK) | |
| ceskenoviny | ok | 113 | 100% | 55 | 331 | ||||
| cnnprima | ok | 85 | 100% | 85 | 1% | 427 | |||
| denik | ok | 159 | — | 2 | 55 | 3% | 392 | 2 článků se shodným textem (boilerplate/ČTK) | |
| denikn | ok | 183 | 100% | 183 | 1132 | ||||
| denikto | ok | 80 | — | 80 | 417 | ||||
| e15 | ok | 125 | 100% | 125 | 496 | ||||
| echo24 | ok | 105 | 100% | 40 | 390 | ||||
| forum24 | ok | 81 | — | 81 | 2% | 409 | |||
| idnes | ok | 467 | 100% | 2 | 190 | 1% | 450 | 2 článků se shodným textem (boilerplate/ČTK) | |
| lidovky | ok | 190 | 100% | 47 | 1% | 395 | |||
| novinky | ok | 224 | 100% | 123 | 2% | 273 | |||
| parlamentnilisty | ok | 119 | 100% | 7 | 49 | 428 | 7 článků se shodným textem (boilerplate/ČTK) | ||
| reflex | ok | 43 | 100% | 43 | 514 | ||||
| seznamzpravy | ok | 150 | 100% | 67 | 491 |
Zdroje bez ID v URL (denik, forum24, denikto) mají ID% „—" — identitu je u nich potřeba dolovat ze stránky (canonical / og:url / JSON-LD). „shodný text" = různé články se shodným extrahovaným textem (boilerplate / agenturní přetisk).