SpiderFlow – 一个无需写代码的爬虫平台

大家好，欢迎来到IT知识分享网。

网络爬虫，是互联网数据抓取的主要方式之一，许多人都会有类似的需求。然而，网络爬虫的编写，通常需要掌握一定的代码编写能力，乃至于比较复杂的项目组织构建能力，有一定的技术门槛。

SpiderFlow，通过可视化的方便，无需编写代码，仅需拖拽链接节点，就能构建一个爬虫应用，十分便捷。

简介

SpiderFlow，是 ssssssss-team 在Gitee上开源的爬虫平台，仓库位于
https://gitee.com/ssssssss-team/spider-flow，目前版本为 v0.5.0。

SpiderFlow 以图形化方式定义爬虫流程，无需代码即可实现一个爬虫。无需编写代码，在线定制爬虫规则；插件丰富，拥有 redis、mongodb、oss、ocr、IP代理池、selenium等插件，高度灵活，扩展方便，规则定制灵活。

使用

SpiderFlow功能丰富，

支持Xpath/JsonPath/css选择器/正则提取/混搭提取
支持JSON/XML/二进制格式
支持多数据源、SQL select/selectInt/selectOne/insert/update/delete
支持爬取JS动态渲染(或ajax)的页面
支持代理
支持自动保存至数据库/文件
常用字符串、日期、文件、加解密等函数
支持插件扩展(自定义执行器，自定义方法）
任务监控，任务日志
支持HTTP接口
支持Cookie自动管理
支持自定义函数

SpiderFlow安装简单，首先准备环境：

JDK >= 1.8 Mysql >= 5.7 Maven >= 3.0

下载项目源码后，

设置Eclipse仓库，菜单Window->Preferences->Maven->User Settings->User Settings 后边的Browse,然后导入自己的Maven目录的conf目录下的settings.xml文件，然后点Apply,在点OK
导入到Eclipse,菜单file->Import,然后选择Maven->Existing Maven Projects,点击Next>按钮，选择工作目录，然后点击Finish按钮，即可导入成功
导入数据库,基础表：spider-flow/db/spiderflow.sql
打开并运行org.spiderflow.SpiderApplication.java
打开浏览器，输入(http://localhost:8088/)

此时就能看到可视化的管理后台了，可以进行爬虫列表的管理：

构建爬虫十分方便，通过可视化面板，使用拖拽组件的方式，就能很快地实现一个网络爬虫：

还支持在线Debug：

并提供了详尽的日志：

SpiderFlow使用不同的节点来组成爬虫逻辑，包括：

开始节点：爬虫的起点，所有流程图必须有该节点
爬取节点：用于请求HTTP/HTTPS页面或接口
定义变量：用于定义变量之后，可以与表达式配套使用，实现动态设置各项参数（如动态请求分页地址）
输出节点：主要用于调试，测试时会把输出打印到页面中，另外也可以用来自动保存到数据库或文件
循环节点：实现循环逻辑
等待结束：等待到该节点之前所有节点执行完毕时才会执行下一级节点
执行SQL：主要用于与数据库交互（查询/修改/插入/删除等等）
子流程：主要用于调用其他流程
执行函数：主要用于调用一些关联性不大，无需返回值的函数，如下载文件，保存文件等
连接线：用来流转至下一个节点

一个简单的爬虫流程如下：

运行顺序：A->B->(C->F),(D->E)->G->H

先执行A节点
A节点执行完毕时，执行B节点
B节点执行完毕时，同时执行C、D节点
C节点执行完毕时，执行F节点
D节点执行完毕时，执行E节点
E、F节点都执行完毕时，执行G节点（G节点是等待结束节点，所以这里会等E、F都结束，否则无论E、F哪个节点执行完毕，都会执行G节点）
G节点执行完毕时，执行H节点
H节点执行完毕时，流程结束

由于C节点是循环节点，假设C节点循环次数是3次，则上方从C节点开始则变成C,C,C->F,F,F->G->H

SpiderFlow还提供了丰富的插件，包括：

redis插件
mongodb插件
IP代理池插件
OSS插件
OCR插件
Selenium插件

可以配合使用，实现更为复杂的功能。

总结

SpiderFlow 以图形化方式定义爬虫流程，无需代码即可实现一个爬虫。无需编写代码，在线定制爬虫规则，利用自定义的逻辑图设计方法，很方便就能设计出网络爬虫，且插件丰富，高度灵活，扩展方便，规则定制灵活。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/174225.html

SpiderFlow – 一个无需写代码的爬虫平台

简介

使用

总结

相关推荐

发表回复