GooSeeker是深圳天据电子商务有限公司出品的一款免费网页抓取软件,它可以帮助用户采集网页文字、图片、表格、超链接等多种网页元素,不限深度和广度抓取网页数据,可视化免编程,网页内容可见即可采,让你轻松搞定网页数据。同时软件还支持集成化图形界面、抓取规则自动生成、随机延迟、抓取结果本地存储、高仿真模拟点击等功能,帮助用户轻松抓取网页数据,性能稳定,小巧实用,有兴趣的可以到本站下载试用!
1、集成化图形界面
包括网页结构窗口、工作台、显示窗口等子窗口。选取被抓取内容时,三个子窗口联动,并显示HTML节点的重要属性
2、抓取规则自动生成
指定抓取内容,定义抓取结果存放结构(整理箱),然后将网页内容分别映射给整理箱中的抓取内容,MS谋数台即可自动生成抓取规则
3、原始网页内容纠错
网页的发布者在写网页的时候可能存在语法和词法错误,只要是火狐浏览器能打开的,都能定义抓取规则并进行抓取
4、防屏蔽抓取
有些目标网站可能根据点击行为特征屏蔽网络爬虫的过度访问,集搜客GooSeeker采用技术手段尽量避免被屏蔽
5、清理运行状态
使用ADSL等动态分配地址的部署方式,定期拨号更换IP地址,也可在火狐浏览器上清除cookie和缓存
1、直观标注采数据
不用程序思维,不要技术基础,点击想要的内容,软件自动管理所选内容,自动放进整理箱
2、可视化免编程
抓取软件操作简单,完全可视化操作,无需编程基础,熟悉电脑操作即可轻松掌握
3、模板资源套用
在抓取规则的详情页面,您可以仔细考察一个规则的抓取结果是否满足您的需要,如果满足,只需点击“下载”按钮,即可在会员中心一键启动集搜客网络爬虫,抓取到你想要的数据
4、通用网络爬虫
采用功能强大的火狐浏览器内核,所见即所得
5、会员互助抓取
这是爬虫群并行抓取的一种特殊情形,利用这个功能,可以低成本快速汇集海量数据
6、不限深度不限广度
以尽量低的成本获得数据,而且只获取需要的网页内容
7、抓取指数图表
集搜客网络爬虫具有强大的图表数据抓取能力,而且提供一个开发者扩展接口,允许技术基础高的用户用Javascript自定义更高级的网络爬虫动作
8、本地化存储保护隐私
把所有采集结果数据直接存储在用户个人电脑上,便于用户对采集结果数据做各种处理
9、自动登录验证码识别
具有自动登录功能,只需要设置相关参数,就可以控制集搜客网络爬虫定期自动登录相应的账号
11、爬虫群并行抓取
集搜客的并行抓取功能,一方面可以帮助个人解决效率低下的问题,另一方面也促进社区闲散资源的整合利用
12、一键“集搜”启动多爬虫抓取数据
可选择分布式采集的方式,把采集任务分配到多台电脑上执行
13、手机网站数据抓取
使用GooSeeker采集手机网站数据和采用PC网站数据同样简单, 可视化定义抓取规则的过程完全一样
1、安装好gooseeker软件,下图为安装好的界面:
2、点击右上方的“MS谋数台”,弹出如下界面:
3、在左上方的网址栏输入想要爬取的网站,我这里输入天气网站(http://tianqi.2345.com/wea_history/57516.htm),并在工作台里面创建任务,进行命名和查重,直到可以使用:
4、在工作台上方标题栏中选择创建规则,选择“新建”并命名,点击确定:
5、点击“抓取内容”中自己的命名的一栏,选中点击右键,选择“添加”,选择“包容”:
6、输入你想抓取的内容名称并保存,我这里重复此步骤,创建抓取内容“日期”、“最高气温”、“最低气温”、“天气”、“风向风力”、“空气质量指数”,并将“日期”勾选为关键内容:
7、在“浏览器”窗口中点击你想要获取的内容,比如现在要获取“日期”,就在“日期”那个区域进行鼠标点击,这时候MS谋数台会自动定位“日期”,即在HTML中结点的DIV结点位置。展开结点,找到text结点,右击鼠标,选择内容映射,然后选择你想要映射至的抓取内容:
8、重复进行第七步,知道把想要抓取的内容给全部映射:
9、创建爬虫路线,点击工作台标题栏中的“爬虫路线”,点击“新建”:
10、创建翻页定位编号,在浏览器中点击上一月,网页会自动定位该文本的结点,右击结点选择“翻页映射”,“作为翻页区”,“线索一”:
11、创建记号定位编号,在游览器中点击上一月,在网页标签里会自动该文本定位的结点,打开该结点,可以看到text属性,右击text(此处只能右击text,不能右击结点),选择 “翻页映射”,“ 作为翻页记号”:
12、创建样例复制映射,点击工作台标题栏里面的新建规则,勾选右方的启用,启动样例复制管理功能:
13、分别找到该页面想要爬取的第一条数据的日期栏和第二条数据对应的日期栏的节点,右击第一条数据的日期栏对应的结点,选择“样例复制映射”,“第一个”,右击第二条数据的日期栏对应的结点,选择“样例复制映射”,“第二个”:
14、点击工作台左方的测试,对当前的规则进行测试:
15、当测试爬取内容为想要的爬取内容时就可以保存当前规则了,点击“MS谋数台”右上方的“存规则”即可保存规则,然后可以使用我们创建的规则进行数据爬取了,想要看自己是否保存规则,就在工作台标题栏里面的“搜规则”查看:
16、打开“DS打数机”,“DS打数机”在Gooseeker浏览器中的右上方,打开“DS打数机”,点击“文件”,“存储路径”,“ 自定义数据的存储路径”:
17、点击“单搜”,设置抓取网页数量,即可开始抓取:
18、然后打开存储地址,然后可以看到爬取的数据以XML文件保存:
19、用EXCEL打开其中一个文件,可以看到爬取的数据集,数据爬取完成:
1、网络爬虫状态错误,无法从FAILED状态启动爬虫?
这个报错是说服务器连接失败,失败的时候显示为红色状态,正常是绿色
2、保存信息结构描述文件失败:not writable?
①主题名重复了,换个主题名就行
②“爬虫路线”工作台上,如果有下级线索,也要注意不能与别人重名。都有“查重”按钮,可以检查一下
3、为什么谋数台又打不开了,打数机能打开?
①火狐自动升级后跟爬虫不配套,就不能正常使用了,所以,安装火狐的时候要去工具菜单->选项->高级->更新里设置不检查更新
②下载了更高版本或中国版火狐,里面安装很多插件,可能影响到gooseeker爬虫的正常使用
③电脑安装了360等杀毒软件,会悄悄破坏其他程序,只需禁止其安全防护功能
1:该下载地址为九点软件园本地下载地址,GooSeeker下载包预览图如下:
2:下载包的正确包名:GooSeeker_9a9m.com.rar
unlock-music下载-Unlock Music(音乐解锁软件) v1.1.2官方版下载1.7MB2062人在玩Unlock Music(音乐解锁软件)可以在浏览器中解锁加密的音乐文件,支持qq音乐下载出来的加密格式、和网易云音乐加密格的转换!
下载eterm下载-eterm代理人版 v3.9最新版下载34.1MB656人在玩eterm3.9代理人版是中国航信专为代理人开发的票务软件,用户可以采取灵活的接入方式搭建销售网络,以帮助用户快速实现报价搜索快捷、快速预订航班、查看航班的价格等功能,赶快下载使用吧!
下载ZTE机顶盒工具下载-ZTE中兴机顶盒配置工具v1.1.0 官方版下载29.8MB441人在玩 ZTE机顶盒工具提供设备维护功能,可以在这款软件上直接远程连接到设备,从而在电脑软件上操作机顶盒,支持抓包功能,需要分析设备的网络通信数据就可以通过抓包查看详细的数据传输过程,可以显示源地址,可以显示目标地址,从而分析数据传输错误信息,分析无法通信的问题,也可以在软件对机顶盒参数配置,支持网络地址设置,支持服务器设置,支持lan设置,支持产品序列号设置,支持IP配置,轻松远程维护设备,需要就可以下载使用!
下载融媒宝官网下载-融媒宝 v2.1.0.7335官方版下载13MB367人在玩融媒宝是自媒体人使用的公众号管家,自媒体平台授权登录直接使用,多自媒体平台、多人同时登录一个自媒体公众号,是一款用户免费使用的自媒体一键发布软件!
下载yy协议免费版下载-yy协议 v1.8绿色版下载3.9MB238人在玩yy协议免费版是九点小编为大家推荐的一款可以用网络封包的方式登录的YY多开工具,避免了使用YY多开器开十几个号就会巨卡无比的情况,是YY多开非常好用的辅助工具,使用YY协议多开可以轻松开出几千个号,让你可以上千个号来达到刷花,刷人气的目的!
下载加速精灵下载-加速精灵 v3.8免费版下载2.9MB230人在玩加速精灵是一款永久免费,主要功能网游加速器,适用于国内游戏以及外服游戏。有效解决掉线高延迟问题。本软件绿色、无毒,并且是少数几个通过微软数字签名验证的加速器。
下载buff插件下载-BUFF助手【网易BUFF比价插件】官方最新版下载35.9KB223人在玩BUFF助手是九点小编为大家推荐的一款专门针对网易BUFF饰品交易平台开发的一款实用辅助插件,在浏览器中安装该插件后,我们就可以轻松对自己需要购买的饰品进行比价,以最实惠的价格买到自己需要的饰品。
下载诚龙网刻工具下载-诚龙网维全自动PXE网刻工具 v11.5官方绿色版下载11MB194人在玩诚龙网刻是九点小编为大家推荐的一款局域网网络克隆工具,有了它你可以快速的对批量的电脑进行网络克隆,包括全盘网刻、单盘网刻,相比GHOST要快很多。适用于电脑很多的工作室、网吧等等。
下载nn加速器下载官网-NN加速器客户端 v4.1.0官方版下载111MB176人在玩nn客户端是九点小编为大家推荐的一款游戏平台加速软件,致力于提供网络游戏和热门手游的免费加速,降低延时、加速更新下载、即时精准的战绩对战查询、0延迟的语音开黑等。
下载ublock origin插件下载-ublock origin最新版v1.46.0 官方版下载3.01MB161人在玩ublockorigin插件是一款可以在浏览器上过滤网络广告和跟踪信息的软件,当您访问一些网页的时候可能会弹出很多广告内容,通过这款插件就可以过滤大部分网页广告,如果通过浏览器进入网页有附加的跟踪信息、威胁隐私的插件、恶意攻击的网站、骚扰的插件等内容
下载