采集文章的时候,难免遇到文章有分页,本教程讲解下内容分页的采集。
在规则的第二步:采集内容规则左下方有个“内容分页获取规则”选项卡,用来设置分页。如下图:
全部列出模式适用于分页地址全部显示出来如下图:
上下页,上N页,下N页适用用分页地址列出一部分如下图:
有没有看出什么规则?没错,就是上下页的会有省略号,既【…167】这样。
我们先说下上下页模式的分页,以采集这个地址http://www.gom-key.com/jiaobenjishu/645.html为例
在第二页分页代码的情况如下:
在第五页分页代码的情况如下:
通过上面我们是否可以得到一个规律:当前页的源代码是“当前页码”然后紧接着的代码
<a href="下一页的地址">2</a>
然后以“</ a>”结束,也就是从页面源代码“当前页码”开始然后再以“</ a>”结束,中间就包含了“下一页”的地址
原理就是找到当前页如何获取到下一页地址的源代码格式,然后我们把这个源代码格式填写到采集器里面如下图:
左侧空白框填写的是“.html”>( *)< /a>”其中当前页的页码我们用( *)代替,右侧的空白框我们写的是“< /a>< /div>”来做为结束,中间的就是下一页地址。我们只要取得绝对值就可以了,不一定要完整的一段代码。
“自动识别”:采集器会在上面的设置的范围内,自动匹配到分页地址。
“手动设置规则”:有的时候采集器识别分页的时候遇到无法识别或者识别的不是很准确,我们就可以把分页的格式写上去,来确保识别分页的正确性。
一般是我们先用“自动识别”如果获取不到我们就用“手动设置规则”。本例子中如果我们用“手动设置规则”可以设置如下:
因为上面我们说明了下一页的地址格式是“< a href=下一页的地址>”,其中我们需要的部分用[参数]代替。下面用[参数1][参数2]等等按照顺序和上面的[参数]一一对应。
以上分页就设置好了,我们试试采集效果。
上图可以显示采集到4条内容分页,加上起始页一共5页。
现在我们设置采集内容的规则,上面图片也有说明了。
设置的规则一定要适用于后面的分页,然后不要忘记选“
如何实现采集到的分页发布到自己网站上也是同样的分页。设置如下:
标签循环处理选项卡下面有个“分页连接代码”,在这里设置了连接代码,采集到的每页的内容就会以这个连接码连接在一起。
我们手动在自己网站发布文章的时候,需要分页的时候,我们都设置一个分页代码各个网站系统是不一样的,遇到分页代码就会分页,那么我们就可以把自己网站上
生成分页的代码写到这个“分页连接代码”就能实现分页效果了。
还希望大家不用太死板,灵活运用才能更好的解决问题,其实没有什么难的,分析的方法我在上面写的很清楚了,就按照这个来做就可以了。太死板的人,是帮不了你了,无视就好。
1. 资源都是经过站长或作者收集测试修改后发布分享。如若转载请在文内以超链形式注明狐狸库文章出处,谢谢合作!
2. 本站除原创内容,其余所有内容均收集自互联网,仅限用于学习和研究目的,本站不对其内容的合法性承担任何责任。如有版权内容,请通知我们或作者删除,其版权均归原作者所有,本站虽力求保存原有版权信息,但因众多资源经多次转载,已无法确定其真实来源,或已将原有信息丢失,所以敬请原作者谅解!
3. 本站用户所发布的一切资源内容不代表本站立场,并不代表本站赞同其观点和对其真实性负责,若您对本站所载资源作品版权归属存有异议,请留言附说明联系邮箱,我们将在第一时间予以处理 ,同时向您表示歉意!为尊重作者版权,请购买原版作品,支持您喜欢的作者,谢谢!
4. 本站一律禁止以任何方式发布或转载任何违法的相关信息,访客如有发现请立即向站长举报;本站资源文件大多存储在云盘,如发现链接或图片失效,请联系作者或站长及时更新。
请登录后查看评论内容