论坛首页 > 技术交流

采集规则的一些吐槽

xiaoshuo88 · 发表于 2022-4-6 · 技术交流

今天试了下自制采集规则，有些地方看得挺迷糊的，小小吐槽一下

1. “内容页”大概是从书籍列表点进去的书籍首页，光看名字一开始以为是正文页

2. 列表网址-获取区间这里没法用正则或者css选择器，有点小小不方便，遇到一些网页上面有相同样式的几个列表，一直只能拿到第一个，我还没弄懂怎么处理，可能可以通过获取前替换掉部分字符实现?

3. 做提取的规则的时候，如果规则比原网页多了少了空格，就提取不到内容了，不知道有没有什么好的处理办法

2 条回复 | 直到 2023-10-16 | 630 次浏览

xh
发表于 2022-4-6

除了防爬虫和分页不能采集，其它的都不事！要把内容分页采集过来这程序才牛逼！

评论列表

编写评论内容

41792646
发表于 2023-10-16

xh

2022-4-6

除了防爬虫和分页不能采集，其它的都不事！要把内容分页采集过来这程序才牛逼！

你把分页的分几次采集就行了，多加一个章节页

编写评论内容

登录后才可发表内容