全球主机交流论坛

标题: 请问下, JSON对象 怎么快速入库 和 日后 快速拔出呢? [打印本页]

作者: 白水泉    时间: 2023-6-5 13:13
标题: 请问下, JSON对象 怎么快速入库 和 日后 快速拔出呢?
有些数据 api 返回  JSON对象, 重复内容不少, 但是每一次都有不同的地方, 基本每隔15 分钟就要跑一次了, 虽然最新的一次数据和15分钟前的数据有可能一致  如何确认数据不会重复呢? 而且方便日后做搜索 寻找 数据呢?
作者: NiDiPiZiNaFongQ    时间: 2023-6-5 13:48
扫一眼标题,还以为在说什么色色的呢:

对象 日后 拔出

缓存一下上次获得的json(或者其MD5),下次拿到后按字面(或者MD5)比对一下,一样的话就无需进一步解析了
作者: woniu    时间: 2023-6-5 13:55
用redis来进行存储和检索就行了


https://paste.org.cn/PdtfjB87AH
作者: 白水泉    时间: 2023-6-5 14:04
NiDiPiZiNaFongQ 发表于 2023-6-5 13:48
扫一眼标题,还以为在说什么色色的呢:

对象 日后 拔出

还是用心 标题了, 但是MJJ们都害羞, 不敢回复。 还以为这样 就多人回复了。
作者: jqbaobao    时间: 2023-6-5 14:06
JSON大起来就肾虚了
只能当作传递工具
作者: 白水泉    时间: 2023-6-5 14:07
jqbaobao 发表于 2023-6-5 14:06
JSON大起来就肾虚了
只能当作传递工具

多大 才算大啊?
这个api 24 小时跑的,  
作者: 郑爽    时间: 2023-6-5 14:09
每次获取生成一个md5
作者: jqbaobao    时间: 2023-6-5 14:19
白水泉 发表于 2023-6-5 14:07
多大 才算大啊?
这个api 24 小时跑的,

JSON ,几MB还行,几百MB开始性能就下降很明显了。个人感觉是这样
作者: longkulo    时间: 2023-6-5 14:32
每次都会变动的地方存数据库里面的,从里面找几个关键词做判断是否重复。
比如
https://hostlob.com
定时爬取最近回复的帖子列表,那里面有一些是变动了,有一些是没有变动的帖子。
只更新变动的,怎么做判断呢


根据帖子id,和帖子回复数量,两个关键词做判断,这两东西有变动就爬取新内容存储,没有变动的就不爬
作者: Lqdahv    时间: 2023-6-5 14:34
用set方法去重啊
作者: 白水泉    时间: 2023-6-5 14:34
jqbaobao 发表于 2023-6-5 14:19
JSON ,几MB还行,几百MB开始性能就下降很明显了。个人感觉是这样

有推荐的方案吗?

这位大佬 的 https://paste.org.cn/PdtfjB87AH  有看法吗?

最快反应的 方案都有?  例如想查 旧数据是, 关键词都是日子,如530, 五月30日,(418,这些) 返回 五月30日 所有的数据

作者: jqbaobao    时间: 2023-6-5 14:38
白水泉 发表于 2023-6-5 14:34
有推荐的方案吗?

这位大佬 的 https://paste.org.cn/PdtfjB87AH  有看法吗?

如果是接口的话,我还经常用字符串解析。。或许你可以使用Redis/Memcache/SQL




欢迎光临 全球主机交流论坛 (https://loc.888543.xyz/) Powered by Discuz! X3.4