TG 爬虫技术怎样处理网页中加密的 JSON - LD 数据？

Question

这个问题，是所有做爬虫的都会遇到的问题。加密JSON-LD数据，本质还是数据采集的问题。首先，你要判断加密是什么形式，有的是简单的base64编码，有的是自定义算法。

郜诗双 · Accepted Answer

这个问题，是所有做爬虫的都会遇到的问题。加密JSON-LD数据，本质还是数据采集的问题。
首先，你要判断加密是什么形式，有的是简单的base64编码，有的是自定义算法。你用浏览器的开发者工具看下网络请求，找到原始数据源，再看返回的格式。
如果是base64，直接解码就好了，如果是复杂加密，可能需要逆向分析。这时候就需要分析前端JS代码，看下他们是怎么处理数据的。
此外，现在大部分网站都把json-ld放在script标签里，但做了混淆或压缩。你可以用正则表达式提取，再用JSON解析器解析。
最后提醒一句，采集要遵守robots协议，别干违法的事。希望这些方法对你有帮助。

功依秋 · Answer

首先得知道加密方式，常见的比如Base64、AES这种编码。
如果前端解密，就得分析JS代码逻辑，找解密函数。
也可以用浏览器调试工具，看网络请求和本地存储。
如果加密复杂，可以尝试逆向工程，或者找网站要授权数据。
平时注意合规，不要干违法的事。

邓丽文 · Answer

你所说的JSON-LD加密，其实是数据通过JS动态加载或者混淆了。爬虫默认是不会执行JS的，所以抓不到。
你可以从以下几个方面考虑：
1. 无头浏览器，如Puppeteer，模拟真实浏览器行为，等待JS执行完成后再抓取数据；
2. 找到数据请求接口，直接调用API获取原始JSON-LD数据；
3. 如果是前端混淆的，可以调试代码，找到解析逻辑，反向还原数据；
4. 有些网站会将JSON-LD埋在HTML注释中，别忘了查看页面源码。
最后，不要指望“一键解密”，要根据实际情况，慢慢调试。

TG 爬虫技术怎样处理网页中加密的 JSON - LD 数据？

3 个回答

您的答案