后台菜单【采集管理→新增采集项目】(只有购买 采集模块 插件才有该菜单)。
第一步:是各种基本信息设置,这边就挑几个重点项目说下。再编写新规则或检查规则问题,右下角【显示源代码并检查标签设置】建议打钩,这样每一步都会检查采集测试结果是否正确。
1、所属模块:主要设置允许采集图片和文件最大大小【采集管理→新增采集模块/采集模块管理】
2、目标网页编码:如果不知道,目标网页 空白处 右键 编码,就能看到了网页编码,编码选错采集内容会乱码。
3、分页/多页采集设置:主要用来采集分页,采集列表第2页~n页,{$ID}页代替网址中变动的页码值,下面填下范围值,如2-10,第二页到第十页。
4、采集属性:
【立即入库】打钩,采集文章直接进入【文章管理→文章管理】,没打钩,采集文章进入【采集管理→采集结果】。
【保存远程图片】打钩采集到的图片保存到本地,不然直接连接目标网站图片。
【倒序采集】默认从列表上往下采集,打钩从下往上采集机。
【使用代理IP】当你的网站IP被限制了,可以考虑用代理IP,不过代理IP采集一般会慢很多,非必要不建议用。设置代理IP在[常规设置→网站参数设置 - 商业版专属 - 代理IP列表]
【源代码压缩】默认打钩,减少特殊符号对采集的影响
【过滤内容敏感代码 】默认打钩,减少特殊代码对采集的影响,只有定位标签或采集有用到包含JS代码时才不要打钩
5、成功采集数量限制:比如设置5,那就是当采集到成功5条后,停止采集。已存在记录数量限制、失败采集数量限制 意思一样。
下面操作就是目标网站实战解说,这里以网钛官网 网钛PHP版 栏目为例:http://otcms.com/news/list_52.html
第二步:列表链接设置
源代码框如果获取不到页面HTML内容说明你的空间受限、IP被封或者对方防采集。
打开该列表页网页源代码,网页随便空白处,右键 【查看网页源代码】/【查看源】 。这边说下开始代码和结束代码什么意思,就是通过开始代码定位内容区域的开头,结束代码定位内容区域的结尾,那开头和结尾之间内容就是我们需要的区域。如列表开始和结束代码,就能获取到该页所有文章链接,比如说有一页有15篇文章,那就是获取到15篇文章链接的区域。然后通过链接开始和结束代码,获取每篇文章的网址链接。
1、列表开始代码:
找到下图区域,下面红框框是要采集的文章链接信息,上面红框框就是要我们找开始代码的地方,里面的红线是可以选择作为列表开始代码的,如图3处红线任选一个即可,不仅仅这3处,其他地方也可以作为开始代码,只要开始代码页头到这里是唯一代码即可,判断是不是唯一代码,很简单,打开源代码搜索功能,用这个代码去搜索如果在指定区域内就它一个,那就是唯一代码。
2、列表结束代码:
结束代码只需从开始代码位置开始计算寻找唯一代码,如下图,上面红框框是列表页文章链接区域代码,下面红框框是分页区域,结束代码一般就在分页区域寻找,如下图5个红线都是标出来可以作为结束代码的,因为从列表开始代码定位开始到分页区域这边,这5处红线代码都可做唯一代码。当然实际作为唯一代码,不仅仅就这5处,还有很多处都可以,需要用户自己多长时间下。
采集时系统会获取从列表开始代码到列表结束代码之间的代码区域,作为列表文章链接获取区域。
3、链接开始代码:
用于定位文章网址链接的开头区域,如下图,看该列表2条文章链接区域,红线<h4><a href=" 这个2条文章都有,另个 class="img"><a href=" 第二条文章没有,所以这个不能作为开始代码,只能用 <h4><a href=" 作为开始代码,也许有人会问为啥不能用 <a href=" 为开始代码,如果用它,第一条会匹配到2个网址开头,第二条会匹配到1个网址开头,所以只能用 <h4><a href=" 才行。
4、链接结束代码:
结束代码都是从开始代码位置开始计算寻找一个代码能完美获取到网址地址即可,这边开始代码是 <h4><a href=",那结束代码可以选择",这样就能获取到网址 ../news/8237.html ,开头 ../属于常规相对路径写法,系统到时会自动替换为http://路径形式。设置到这里,就能获取到该页面所有文章链接了,然后可以进入下一步。如果右下角【显示源代码并检查标签设置】有打钩,点击下一步,就可以列出采集到的所有文章链接,以此来判断上一步设置的是否正确,如果没获取到所有文章链接,那就是有问题了,要回到上一步重新检查。
第三步:正文内容设置
到了这里,会罗列出上一步设置而采集到的列表文章链接,如果没显示或者链接数量不对,网址是否正确,随便点开个看看是否正常访问,如果有问题那就是上一步设置有问题,返回上一步重新检查下。
比如下图这个获取的第1条网址格式没问题,后面9条网址格式都是有问题的,这就说明上一步定位标签有问题,要返回修改。
随便打开个内容页源代码开始编写内容页采集规则吧。
1、标题开始代码 和 标题结束代码:
找到源代码中标题内容,如果内容太多不好找,直接用网页搜索关键词来查找,有些页面会有多处地方显示标题,这种情况都对比过去下选择其中一处靠谱的。如下图,找到标题区域这处,开始代码<h1>,结束代码</h1>
2、正文开始代码 和 正文结束代码:
找到正文内容,那它的上方代码 <div id="newsContent"><div> 就是正文开始代码
正文结束代码:先看文章正文是在哪里结束,如下图,“插件介绍说明...54.html”这句话结束,源代码里
找到这个地方,那他们下面代码区就有 正文结束代码,这里看过去 <div id="newsEncCont"> 比较靠谱些,可以作为正文结束代码。当然开始和结束代码还可以是其他,不仅仅就一个,特别文章正文是很复杂的,部分文章正文可能存在两三种不同开始结束代码,故这边还有【正文备用标签】项,最多允许有2个,开启2个,那就是正文标签定位不到内容时,会调用正文备用标签1,如果还是定位不到内容调用正文备用标签2。
设置好,就可以下一步看看采集测试效果,没问题就OK,如果采集效果有问题,返回上一步检测定位标签。
还有很多选项由于比较少用,所以这里就不在说明,会这些,基本其他少用选项也能大部分知道怎么设置。