求助:采集规则遇到问题,请求帮助。

yuji   ·   发表于 2019-9-2   ·   技术交流

问题出现在添加的一个关联网址 章节

采集目标的章节列表的链接a标签有点奇怪,他是奇数是双引号,偶数是单引号的,如下:

<td class="dccss"><a href="/book/20867.html">第一章</a></td>

<td class="dccss"><a href='/book/20868.html'>第二章</a></td>


我在网址规则里如果写成这样

<td class="dccss"><a href=[内容1]>[章节标题]</a></td>

是可以采集所有章节,但是小说正文内容采集不到,会一直显示转码失败。

如果网址规则里写a标签双引号的 <td class="dccss"><a href="[内容1]">[章节标题]</a></td> 这样子的话,就只能采集奇数章节,采集完只有第一章,第三章,第五章这样子的,缺少偶数部分的章节,但是小说内容可以正常采集和显示。


不知道啰嗦这么多,能不能看的明白啊,现在不知道这个网址规则应该怎么写,我用(*)代替两边的引号,也是只能采集到的章节标题,没有章节内容,和不加引号效果一样的。

2 条回复   |  直到 2019-9-14 | 938 次浏览

zhuoling1234
发表于 2019-9-11

 楼主可否留个联系方式一起讨论,我也遇到采集问题

评论列表

  • 加载数据中...

编写评论内容

yuji
发表于 2019-9-14

zhuoling1234

2019-9-11

 楼主可否留个联系方式一起讨论,我也遇到采集问题

微信号:adm888

评论列表

  • 加载数据中...

编写评论内容
登录后才可发表内容