TG 爬虫技术怎样处理网页中加密的 JSON - LD 数据?
1 个回答
这个问题,是所有做爬虫的都会遇到的问题。加密JSON-LD数据,本质还是数据采集的问题。
首先,你要判断加密是什么形式,有的是简单的base64编码,有的是自定义算法。你用浏览器的开发者工具看下网络请求,找到原始数据源,再看返回的格式。
如果是base64,直接解码就好了,如果是复杂加密,可能需要逆向分析。这时候就需要分析前端JS代码,看下他们是怎么处理数据的。
此外,现在大部分网站都把json-ld放在script标签里,但做了混淆或压缩。你可以用正则表达式提取,再用JSON解析器解析。
最后提醒一句,采集要遵守robots协议,别干违法的事。希望这些方法对你有帮助。