采集的一些问题

qingxiao   ·   发表于 1个月前   ·   技术交流

现在好的站点都采用分页或登陆,基本很少有好的站点可以采集了

一些大站更没法采集 全是vip章节

很多可以采集的也有各种问题,有些站页数做了限制,只能看到前50页,50页后面的地址打开也是第50页的列表,能采集的小说就那么点了

很多盗版站1年换一次域名,采集的费劲死了,我倒是研究出来源站换域名我也可以直接进数据库批量替换域名来解决,就怕源站关了或换了域名找不到了,那就推倒重来


我之前找了20多个站,前几天研究了一下,发现好些都变成了分页,限制列表页数,有些域名换了还是关了,直接打不开了,能采集的就那么几个站了


目前的采集完全依赖源站,原站有变动你的站就废

采集器应该也要变,能像火车头啥的那些采集器能直接全站采集数据的就好了,虽然一个站采集完可能直接多了几百G的数据,但至少数据都在你自己手上了,不用再依赖源站


2 条回复   |  直到 13天前 | 136 次浏览

haose
发表于 1个月前

你采集到本地,源站换了,那也没得更新了,

评论列表

  • 加载数据中...

编写评论内容

xiaoao2024
发表于 13天前

分页的 规则怎么做   测试目录分页的  只能采集到 每页目录的第一页

评论列表

  • 加载数据中...

编写评论内容
登录后才可发表内容