TG 爬虫技术怎么应对网站结构变化?

濮芸濮芸09月18日870

我们做TG营销的,爬虫抓数据网站结构经常变动,怎么办?有啥办法让爬虫更稳定?

1 个回答

庞多思
庞多思回答于 09 月 18 日
最佳答案

做TG的,网站结构调整,爬虫就容易崩,这太正常了。

第一,不要死磕固定选择器,用动态定位,比如XPath模糊匹配,CSS类名组合。

第二,爬虫跑完自动保存页面快照,方便对比变化,也方便后续调试。

第三,加异常处理,结构变了跳出循环发告警,别让它挂了。

第四,定期维护代码,别等抓不到数据才发现。

最后,有条件的话,用无头浏览器模拟真实访问,抗变化能力强多了。

这么改,爬虫稳定性提升一大截。

您的答案