dedecms 后台采集节点配置详解(图文)

今天写一篇关于织梦dedecms后台采集节点管理配置的文章。

首先登陆后台,找到采集模块,点击采集节点管理,点击“增加新节点”,

下一步选择“普通文章”,然后进入节点配置的第一步,如下图所示:

以采集织梦官网上的PHP教程为例,首先给节点起一个名字,供以后使用方面查找,我填的是“开发语言-PHP”,
然后填写列表网址获取规则,此处要填的是你要采集的网站文章的列表页的链接,或者是n个列表页的链接,此处
我填的是“http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_(*).html”,这里的*号代表文章
列表页的页数,织梦官网共有172页,所以“批量生成地址设置”里可以填写1到172,我此处填的是1到160.
注:如果你要采集的网站的列表页的分页没有规律可循,那么你只需将列表页的地址填到“匹配网址”处就行了,
因为新的文章会在第一页显示,所以你以后每天采集到的都是最新的,也不是为一种好的方法。

下一步是配置“文章网址匹配规则”,打开文章列表页的源文件(右击=》查看源文件),找到列表第一个标题的前部分,

最好是id=”…”,这样有唯一性,不易出错,如果没有那么好找的标记,就找上一级标签,如下图所示:


注:标签最好填写完整的标签,并且标签前后不要有空格,否则会出现采集不到的情况。

配置好后点击“保存并测试”,然后进入“网址获取规则测试”页面,并且会出现前10条文章的标题

如果你看到此页面,那么恭喜你这一步成功了。

保存进入下一步。如下图所示页面,

这一步是配置单篇文章的对应规则的,也就是你想把采集来的文章以什么样的

规则显示出来。这一步你可以设置内容的标题、作者、时间等,可以加入过滤规则,过滤掉不想显示的内容,如我要

过滤标题中的“织梦CMS内容管理系统 – powered by dedecms”,那么你可以直接在里面加入这段话,系统会自动生成

过滤代码。下一步就是文章内容的匹配规则了,和列表内容匹配规则差不多,列表页是找到列表标题,而此处是要找到

文章的正文的开始与结尾处,中间用“[内容]”代表文章的内容。配置好后点击“保存配置并预览”,你可以看到一篇文章,

如果出现你不想的内容,返回上一步使用过滤规则过滤掉就行了。最后就是开始采集了。

呵呵,简单吧,快在你的网站上试试吧!

未经允许不得转载:WEIXING.ME » dedecms 后台采集节点配置详解(图文)

相关文章

评论 (0)