每次采集的都是重头开始,删除了小说下一次采集的时候又采集过来了 又需要去删除

shujin   ·   发表于 2个月前   ·   技术交流

可不可以修改一下采集器的规则,有的字数特别少的小说完全没有必要,每次整理的时候把那些删除了。下一次采集又是从头开始采集,之前不要的资源又来了,有的时候还会有一些重复的资源。

5 条回复   |  直到 1个月前 | 136 次浏览

xh
发表于 2个月前

同名小说  有利于收录!

评论列表

  • 加载数据中...

编写评论内容

shujin
发表于 2个月前

xh

2个月前

同名小说  有利于收录!

明白了,但是那种字数少的怎么搞呢?有点强迫症 那种字数少的离谱的 没事删了又来了

评论列表

  • 加载数据中...

编写评论内容

xh
发表于 2个月前

shujin

2个月前

明白了,但是那种字数少的怎么搞呢?有点强迫症 那种字数少的离谱的 没事删了又来了

后台状态关闭就好了  ,在清除缓存!就不显示了!

评论列表

  • 加载数据中...

编写评论内容

shujin
发表于 1个月前

xh

2个月前

后台状态关闭就好了  ,在清除缓存!就不显示了!

好的 谢谢大佬了

评论列表

  • 加载数据中...

编写评论内容

qingxiao
发表于 1个月前

直接进数据库 删除 30W字以下的小说,直接少了几万本,不方便的是每次采集别的站都要进数据库删一次,但是这样会把新书删掉,因为新书没那么多字,可以把字数降低一些,这样新书字数到了就会保留,字数少也没啥人看,还要费劲追书

再推荐一下,你可以修改采集规则,比如玄幻,原站有930页,你第一次采集是1-930页 倒序,整站采集完之后,你把页码变成1-30 倒序,然后比如每隔一个月这样定期采集,这样会更新采集进来的字数少的就是新书了,因为上面已经把字数少的书都删掉了,不更新的书都会排在很后面去,更新的时候采集不到,但是一般来说最后面的书就算字数有个几百万但也是很久之前的书了,看的人也基本没有了,你也可以直接只采集比如1-500啊1-600啊这些,再把字数少的删了


我就这么操作的,整站采集完,然后删了30w还是50万字以下的书,再把采集规则每个栏目都改成最新的1-30页,这样就可以采集新书了,。。。。。。不过也没啥好的新书采集进来就是了


直接数据库删的话,建议多采集几个站,然后再删,不至于后面采集了字数少的,删的时候再把前面更新进来的字数还没到的新书删了

不过删了就删了,字数少不更新了你反正也要删的,字数多了也不会再被删了,无非就是源站采集的新书在你这里迟一些出现而已

评论列表

  • 加载数据中...

编写评论内容
登录后才可发表内容