网上已经有很多dede的采集教程,一直在犹豫还用不用再写一篇。既然要写系类教程就写一下吧。dede自带的采集模块个人觉得功能并不是强大,但是基本可以满足大部分的网站采集的工作。因为是系统自带的功能所以要比一些专业的采集软件使用起来更方便一些。如果采集一些规则相对复杂的网站推荐用火车头采集软件。不废话了,我们就拿这个博客做为例子吧。
1、新建采集站点
首先我们打开织梦后台点击 采集——采集节点管理——增加新节点,然后选择要采集的数据模块,博客一般都是文章性质,所以我们选择普通文章,然后点击确定。
2.、站点基本设置
首先填写采集规则的名称“搜索引擎营销”,然后右键点击查看源文件,找到charset(编码),我的这个博客站是UTF-8编码,所以在页面编码一项要选择UTF-8。
3、添加采集类表
下面我们就可以添加采集类表了,大家注意了这里是有技巧的。采集的首页是http://www.mysemlife.com/index.html 当点击第二页的时候却是:http://www.mysemlife.com/catalog.asp?page=2。当把网址最后的page=2,换成page=1的时候出现的就是首页的列表。所以,我们选择 批量生成列表网址,并且填上http://www.mysemlife.com/catalog.asp?page=(*),并且选择从第1页到第4页。
4、文章网址匹配规则
这部分就是设置列表开始和结束。我们右键单击查看源文件,找到列表开始的位置和结束的位置。
列表开始位置:
列表结束位置:
填完之后我们点击保存并且测试,结果却不是我们想要的结果,为什么呢?因为dede采集模块会自动采集<a>标签,而我们采集区域里有其他的链接。这时候我们就无计可施了吗?
当然不是,这时候我们要对区域网址进行再次筛选,我们仔细看一下源代码,就不难发现,文章的url都是静态的,所有的url都包含了html。所以我们在对网址进行再次筛选的框里填上必须包含html。在测试一下,大功告成!最后我们点击进入下一步设置。
5、网页内容获取规则
进入这一步之后其实也没什么难度了。前面的设置基本上不用动。dede采集模块会自动采集标题、关键词和页面描述。需要我们设置的是页面内容。我们以http://www.mysemlife.com/post/tianjialanmu.html为例。还是右键单击查看源文件。同样的方面找到内容开始和结束的区域。
内容开始部分:
内容结束部分:
然后在文章内容匹配规则:里填上<div>[内容]</div>就搞定了。什么?你还想去掉文章内容中带的链接? 唉,这么做就不仗义了。不过这也是一个比较常用的技巧我也介绍一下吧。
去掉链接是有技巧的哦。我们点击右侧的常用规则。弹出一个对话框,让你选择需要过滤的内容。如果你点击超链接会出现一下规则:{dede:trim replace=”}<a([^>]*)>(.*)</a>{/dede:trim}。这样设置会把链接和带的文字都过滤掉,这样会造成文章内容不通顺。还用上面的例子:如果用{dede:trim replace=”}<a([^>]*)>(.*)</a>{/dede:trim}这个规则,采集的内容会是:前几天写了一篇的文章,详细解释了一下什么是百度推广账户通顺度,包括调整百度推广账户通顺度的操作方法。所以我们要更改过滤规则,可以写成这样{dede:trim replace=”}<a([^>]*)>{/dede:trim}{dede:trim replace=”}</a>{/dede:trim},这样就可以只把链接去掉还能保留链接中文字。
6、采集并发布
后面的操作就比较简单了,保存之后就开始采集,等采集完毕后把下载完的内容导入到对应的栏目里就可以了。