云采集原理以及规则加速设置教程.docx
《云采集原理以及规则加速设置教程.docx》由会员分享,可在线阅读,更多相关《云采集原理以及规则加速设置教程.docx(5页珍藏版)》请在第一文库网上搜索。
1、云采集原理以及规则加速设置教程对于旗舰版以上的用户,可以通过云采集实现多任务并发和单任务加速的采集效果,以便用户快速的收集整理互联网公开数据。本教程主要讲云采集原理、规则加速设置。一、云采集原理A.一个规则任务进行云采集最少占用一个云节点,最多可以占满所有云节点B.一个规则任务满足可拆分成子任务的情况下,最多拆成199个子任务C.一个子任务占用一个节点,子任务全部执行完成意味着任务完成D.一个规则任务拆成多个子任务分配到不同云节点就达到加速采集的效果E.如果云节点被占满,那么新启动的任务或被拆分的子任务会进入等待队列,直到用户某个云节点执行完用户的某个任务释放出节点资源,图1云采集运行中如图红
2、线处任务分配到云节点,多任务并发采集数据,如图红框处,由于节点被占满,只能进入等待队列,等待某个云节点执行完成后释放资源。二.云采集加速设置由云采集原理D可知,如果要一个任务加速采集的效果,那么这个任务要满足拆分条件或者将任务改成满足拆分条件的任务,这样才能达到单任务加速的效果。满足拆分条件的任务分别为:列表循环B.文本列表循环C.固定元素列表循环1、UR1列表循环、文本循环示例网址:对于非AJAX网站,以大众店铺为例,假设我要采集该网站所有分类下的店铺,那么我们可先采集分类的UR1,然后做UR1循环进行采集店铺信息,具体步骤如下:步骤1:以先将所有具体分类采集下来,如图2采集点评分类UR1图
3、2采集点评分类UR1小贴士采集完分类的UR1后,我们就可以将这个UR1作为UR1循环进行数据提取,这样的话,通过八爪鱼自动拆分任务,就可以将不同的UR1拆分成不同的子任务分配给不同的云节点进行数据采集,达到单任务加速的采集效果步骤2:通过步骤1的采集,将UR1建立UR1循环进行数据采集,具体如截图3UR1循环列表图3UR1循环列表采集步骤3:对比效果,如图4本机采集和UR1循环列表云采集采集效率对比图4云采集采集速率小贴土云采集除了采集效率比本机采集高之外,还能节省用户自身电脑与网络资源,与本地采集消耗用户本地电脑资源和网络资源相比,云采集所用资源都是云节点资源,用户启动云采集后就可关闭客户端
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 采集 原理 以及 规则 加速 设置 教程