一键采集百万域名数据 如来多线程软件工具的使用感受
蜘蛛爬虫式采集工具
本软件工作原理是从一个初始网址中,查找外部网站,比如初始页面中有30个外部网站,那就继续爬取这30个外本网站,
可以正常访问的就收录进数据库,并且在这30个网站中再次查找外部网站如果每个站有30个外部网站,那就是30*30=900个
然后再访问这900个网站剔除无法访问的,找到正常访问的剔除重复加入数据库,然后再查找他们页面中的外部网站,如需往复
形成裂变式蜘蛛网!
软件界面:
软件的设置说明:
[ 30 ] 分钟自动保存 : 为了避免挂机采集的时候由于意外停电或者其他原因造成电脑关键,导致无法保存采集结果,这里设置多少分钟自动保存一次,中途停机也不怕
[ 100 ] 万个自动停止 : 设置后在软件自动采集到相应的数量的时候,会自动停止采集
[ 50 ] 线程 : 线程=采集速度,当然不是越大越好,看你自己的网速,假如你用的是100M的宽带,那我推荐100线程
保存进度 : 保存当前采集的进度,就可以放心关闭软件了,下次打开可以接着采集
读取进度 :假如我们这次采集想继续上次的进程接着采集,那么先读取进度,然后点开始采集就可以了
[ √ ] 采集二级域名 : 如果打钩就会采集到二级域名,并且限制二级域名的前缀问文本框里指定 前缀,如果不想限制的话,就把后边的不限前缀打上勾
采集关键词:软件会从搜索引擎搜索输入的关键词,采集一批域名当做种子网址,然后再去采集更多的网址
动态监控网址:这里是页面实时变化的网址,每隔几秒钟抓取一次,通常用于抓取站长工具里的查询记录里边的网址,大家可以自己添加, 也可以不用管它
当然这里边需要处理很多事情,比如爬行记录的去重、多线程之间的干扰、等等问题
导出域名参照如下界面: 中文网站 / 外文网站 / 报错网站 / 想要的就打钩,不想要的不打钩,然后点 导出网址 按钮就行了
后边的限制后缀是假如我就要 .net的网址 ,那你就输入.net 点启用即可
历时多年开发的迭代更新,多个版本之后最终的完善版本。更好的利用了现代多核CPU的性能
历史版本性能:
第一版跑出10分钟1W+的网址数,已经非常强悍了
2.5版10分钟跑出2.8万个,注意这都是去重复后的网址哦,而且都是顶级域名
3.0版10分钟采集13万+个网站
3.2版 采集21万用时9分钟
每一次升级都是质的飞越,购买过的朋友快来下载最新版吧!
您看到的时候软件还一直在更新
具体的性能看你自己的电脑配置了,各位可以根据自己电脑配置适当调整线程数
这个5年前就买的最低配的货,也该淘汰了工欲善其事必先利其器 这个道理是对的