百度未收录

火车头如何实现内容分页采集

采集文章的时候,难免遇到文章有分页,本教程讲解下内容分页的采集。
在规则的第二步:采集内容规则左下方有个“内容分页获取规则”选项卡,用来设置分页。如下图:

火车头如何实现内容分页采集-狐狸库

全部列出模式适用于分页地址全部显示出来如下图:

火车头如何实现内容分页采集-狐狸库

上下页,上N页,下N页适用用分页地址列出一部分如下图:

火车头如何实现内容分页采集-狐狸库

有没有看出什么规则?没错,就是上下页的会有省略号,既【…167】这样。

我们先说下上下页模式的分页,以采集这个地址http://www.gom-key.com/jiaobenjishu/645.html为例
在第二页分页代码的情况如下:

火车头如何实现内容分页采集-狐狸库

在第五页分页代码的情况如下:

火车头如何实现内容分页采集-狐狸库

通过上面我们是否可以得到一个规律:当前页的源代码是“当前页码”然后紧接着的代码

<a href="下一页的地址">2</a>

然后以“</ a>”结束,也就是从页面源代码“当前页码”开始然后再以“</ a>”结束,中间就包含了“下一页”的地址

原理就是找到当前页如何获取到下一页地址的源代码格式,然后我们把这个源代码格式填写到采集器里面如下图:

火车头如何实现内容分页采集-狐狸库

左侧空白框填写的是“.html”>( *)< /a>”其中当前页的页码我们用( *)代替,右侧的空白框我们写的是“< /a>< /div>”来做为结束,中间的就是下一页地址。我们只要取得绝对值就可以了,不一定要完整的一段代码。

“自动识别”:采集器会在上面的设置的范围内,自动匹配到分页地址。

“手动设置规则”:有的时候采集器识别分页的时候遇到无法识别或者识别的不是很准确,我们就可以把分页的格式写上去,来确保识别分页的正确性。

一般是我们先用“自动识别”如果获取不到我们就用“手动设置规则”。本例子中如果我们用“手动设置规则”可以设置如下:

火车头如何实现内容分页采集-狐狸库

因为上面我们说明了下一页的地址格式是“< a href=下一页的地址>”,其中我们需要的部分用[参数]代替。下面用[参数1][参数2]等等按照顺序和上面的[参数]一一对应。

以上分页就设置好了,我们试试采集效果。

火车头如何实现内容分页采集-狐狸库

上图可以显示采集到4条内容分页,加上起始页一共5页。

现在我们设置采集内容的规则,上面图片也有说明了。

火车头如何实现内容分页采集-狐狸库

设置的规则一定要适用于后面的分页,然后不要忘记选“默认页和内容分页源码”,如果不选是不会采集分页地址的。

如何实现采集到的分页发布到自己网站上也是同样的分页。设置如下:

火车头如何实现内容分页采集-狐狸库

标签循环处理选项卡下面有个“分页连接代码”,在这里设置了连接代码,采集到的每页的内容就会以这个连接码连接在一起。

我们手动在自己网站发布文章的时候,需要分页的时候,我们都设置一个分页代码各个网站系统是不一样的,遇到分页代码就会分页,那么我们就可以把自己网站上

生成分页的代码写到这个“分页连接代码”就能实现分页效果了。

备注:其实所有的分页都是可以使用上下页模式的,无论分页地址是否全部或者部分列出,根据上面讲到的原理,找到规律就可以了,我写分页全部用上下页模式
还希望大家不用太死板,灵活运用才能更好的解决问题,其实没有什么难的,分析的方法我在上面写的很清楚了,就按照这个来做就可以了。太死板的人,是帮不了你了,无视就好。

温馨提示:本文最后更新于2022/11/25 11:38:57。若文章内容或图片失效,请留言联系站长反馈!
!
也想出现在这里? 联系我们
创意广告
© 版权声明
THE END
点赞0赞赏 分享
评论 共1条

请登录后发表评论

    请登录后查看评论内容