采集规则的一些吐槽

xiaoshuo88   ·   发表于 2022-4-6   ·   技术交流

今天试了下自制采集规则,有些地方看得挺迷糊的,小小吐槽一下


1. “内容页”大概是从书籍列表点进去的书籍首页,光看名字一开始以为是正文页

2.  列表网址-获取区间这里没法用正则或者css选择器,有点小小不方便,遇到一些网页上面有相同样式的几个列表,一直只能拿到第一个,我还没弄懂怎么处理,可能可以通过获取前替换掉部分字符实现?

3.  做提取的规则的时候,如果规则比原网页多了少了空格,就提取不到内容了,不知道有没有什么好的处理办法

2 条回复   |  直到 6个月前 | 420 次浏览

xh
发表于 2022-4-6

除了防爬虫和分页不能采集,其它的都不事!要把内容分页 采集过来这程序才牛逼!

评论列表

  • 加载数据中...

编写评论内容

41792646
发表于 6个月前

xh

2022-4-6

除了防爬虫和分页不能采集,其它的都不事!要把内容分页 采集过来这程序才牛逼!

你把分页的分几次采集就行了,多加一个章节页

评论列表

  • 加载数据中...

编写评论内容
登录后才可发表内容