今天试了下自制采集规则,有些地方看得挺迷糊的,小小吐槽一下
1. “内容页”大概是从书籍列表点进去的书籍首页,光看名字一开始以为是正文页
2. 列表网址-获取区间这里没法用正则或者css选择器,有点小小不方便,遇到一些网页上面有相同样式的几个列表,一直只能拿到第一个,我还没弄懂怎么处理,可能可以通过获取前替换掉部分字符实现?
3. 做提取的规则的时候,如果规则比原网页多了少了空格,就提取不到内容了,不知道有没有什么好的处理办法
xh 发表于 2022-4-6
除了防爬虫和分页不能采集,其它的都不事!要把内容分页 采集过来这程序才牛逼!
加载数据中...
41792646 发表于 2023-10-16
xh
2022-4-6
你把分页的分几次采集就行了,多加一个章节页
xh
发表于 2022-4-6
除了防爬虫和分页不能采集,其它的都不事!要把内容分页 采集过来这程序才牛逼!
评论列表
加载数据中...
41792646
发表于 2023-10-16
xh
2022-4-6
除了防爬虫和分页不能采集,其它的都不事!要把内容分页 采集过来这程序才牛逼!
你把分页的分几次采集就行了,多加一个章节页
评论列表
加载数据中...