我们做TG营销的,爬虫抓数据网站结构经常变动,怎么办?有啥办法让爬虫更稳定?
做TG的,网站结构调整,爬虫就容易崩,这太正常了。
第一,不要死磕固定选择器,用动态定位,比如XPath模糊匹配,CSS类名组合。
第二,爬虫跑完自动保存页面快照,方便对比变化,也方便后续调试。
第三,加异常处理,结构变了跳出循环发告警,别让它挂了。
第四,定期维护代码,别等抓不到数据才发现。
最后,有条件的话,用无头浏览器模拟真实访问,抗变化能力强多了。
这么改,爬虫稳定性提升一大截。