文章采集设置及操作教程

2017-3-1 admin 淘宝客平台源码

首先必须确定目标网站,也就是你想采集那个网站,本教程以采集“淘宝门户的潮流趋势频道”为例子,该频道的网址为:http://fashion.taobao.com/list/2081/1.php
先贴出采集规则图片,然后再讲解里面的每个参数怎样获取:

 


1、规则名称:这个随便填 不影响采集。

2、采集页面编码:在准备采集的目标网页 鼠标右键 --> 编码 可查看到,常见编码有这些:gb2312,gbk,utf-8,big5,iso-8859-1,GB18030

3、列表第一页:有分页的那些页面就叫列表页,这里填写分页的第一页网址即可,例如:http://fashion.taobao.com/list/2081/1.php

4、列表分页(带标签):点击第二页 ,你会发现分页网址一般都有规律,例如这是第二页的网址:http://fashion.taobao.com/list/2081/2.php  对比一下第一页的 你很容易发现,变化的仅仅是2.php 这个数字,所以这样填写:http://fashion.taobao.com/list/2081/{page}.php


5、分页总数:指你想采集多少页,比方潮流趋势这个频道有67页:

 


填写的总页数不超过67即可。


6、分页步长:比方第二页页数为2,第三页页数为3,那么步长为:3-2 = 1,以此类推。


7、列表区开始标记:在目标网站页面 鼠标右键-->查看源文件,找到列表区的开始标记:
例如:

 


所以应该填写:<div class="list-box">


8、列表区结束标记:

 



接下来点击这个按钮:  
看是否能抓取到内容,如果无法抓取 请返回继续修正 列表区开始和结束标记。直至抓取到内容为止。


9、列表项开始标记:在上面预抓取到的内容中 查找列表项开始标记,例如:
 


10、列表项结束标记:根据上面的截图 很显然就是</h2> 了 因为</h2>包裹着a标签。
填好之后 点击按钮:  测试是否有数据返回 否则重新修正列表项开始 和结束标记,直至抓取到内容为止。


11、详细页面正文开始标记:随便点击一篇文章,进入详细页面,然后同样:鼠标右键-->查看源文件,找到包裹文章正文的开始标签,例如:
 


12、详细页面正文结束标记:找到包裹正文的结束标记,例如:
 

发表评论:

Powered by X兵器库 桂ICP备16000990号
sitemap
返回顶部