TG 爬虫技术怎样处理网页中加密的 JSON - LD 数据?

苑光苑光09月19日873

电报营销网站抓取加密JSON-LD数据怎么处理?我们做电报营销的,有时会抓不到结构化数据,影响效果,有办法解密或提取出来吗?

1 个回答

郜诗双
郜诗双回答于 09 月 19 日
最佳答案

这个问题,是所有做爬虫的都会遇到的问题。加密JSON-LD数据,本质还是数据采集的问题。

首先,你要判断加密是什么形式,有的是简单的base64编码,有的是自定义算法。你用浏览器的开发者工具看下网络请求,找到原始数据源,再看返回的格式。

如果是base64,直接解码就好了,如果是复杂加密,可能需要逆向分析。这时候就需要分析前端JS代码,看下他们是怎么处理数据的。

此外,现在大部分网站都把json-ld放在script标签里,但做了混淆或压缩。你可以用正则表达式提取,再用JSON解析器解析。

最后提醒一句,采集要遵守robots协议,别干违法的事。希望这些方法对你有帮助。

您的答案