前几个月有一款新百度强引蜘蛛工具出来,在8月份我就搞了一份,主要因为最两年,被光来蜘蛛不收录的工具搞怕了,所以没有第一时间测试,一直闲置。

听朋友说引蜘蛛后在10天左右出现收录,20天左右大量收录,所以咱也来测试一下。

本文所示工具及方法均已失效,仅作为个人学习记录。

测试环境

  • 网站环境

10条备案域名,价格约在800~1200;

16H服务器,800G空间;

小旋风蜘蛛池X系列+超度小说模型;

  • 发包环境

1.4H8G10M配置win服务器10台;

2.秒提200IP日不限量套餐,白名单10个;

测试进程

  • 蜘蛛池数量表一

蜘蛛池数量表一

  • 蜘蛛池数量表二

蜘蛛池数量表二

收录情况

收录情况

事件记录

1.20220904:配置好蜘蛛池环境,检测主域名、泛域名均能访问;

2.20220905:5台服务器+代理IP开始推送,半天实现蜘蛛23W+;

3.20220906:5台服务器+代理IP推送,全天蜘蛛近79W;

4.20220907:10台服务器+代理IP推送,蜘蛛密度太高,服务器配置不够,导致服务器崩溃,更换服务器,耽误太多时间蜘蛛仅剩下35.8W,并测试泛域名,发现有日收泛二级;

5.20220908:10台服务器+代理IP推送,服务器配置跟上了,日百度蜘蛛过百万,达到1155554,泛域名持续少量收录;

6.20220909:10台服务器+代理IP推送,泛二级依旧少量收录,于当晚8点停止推送,以便观测停止推送后蜘蛛情况,用于考虑延迟。

7.20220910:无推送,蜘蛛于4小时候达到顶峰并陆续介绍,在上午6点(约10小时后)接近于无,但查看详细log中抓取url的可见有3天前推送的标识。

强引蜘蛛结论

  • 经验总结

推送蜘蛛延迟约为4~10小时,即最快4小时内来蜘蛛;如果停止推送,最慢10小时无蜘蛛(零星蜘蛛延迟不算);

1台服务器无多开情况下推送蜘蛛后实际抓取数量约在10W左右;

推送泛目录暂时未见收录,推送泛域名收录的是推送后的泛域名的内页链接,即未收录直接推送的链接,而是收录了蜘蛛抓取后该链接的内页链接,相当于起到引导的作用;

  • 未考虑的情况

由于资金有限,没有测试更高质量的域名,没有测试权重站二级目录,尚不清楚高质量域名、高质量站点目录有没有更好的收录效果;

由于物料不足,推送过程中使用的cookie并非100%存活,经检测存活率约为2.5%,后期有机会使用100%存活cookie再次测试;

由于时间有限,尚不清楚后期是否会收录推送的泛内页及泛二级域名;

由于资源有限,只能肯定收录的泛二级内页是推送后的泛二级域名产生的泛二级内页链接,但不清楚推送泛二级域名与收录泛二级内页两者间的必然联系。

百度PC端强引蜘蛛工具使用方法

百度PC端强引蜘蛛工具使用方法

  • 文件配置

程序根目录下有四个文件,分别为uas.txt,cks.txt,域名列表.txt,凯撒测试工具(百度).ini;

在uas.txt下写入浏览器ua数据,一行一条;

在cks.txt下写入百度cookie数据,一行一条,注意检测cookie是否存活;

在域名列表.txt下下入需要推送的url链接,一行一条,注意只需要填写根域名即可;

凯撒测试工具(百度).ini这个文件是配置文件,在程序操作界面中点击“保存参数值”会自动生成或修改本文件,不用管。在后期的使用中可以通过直接写入本文件显示免键鼠操作程序,便捷的实现群控管理操作。

  • 程序配置

程序打开后会提示在20秒后开始自动工作,可以点击“停止推送”终止本次操作。

第一次使用时,点击导入域名列表,导入上文所述的配制好的域名列表.txt;

其次设置发包间隔时间及超时值,这里可以如上图所示直接输入即可,不多做介绍;

接着勾选启动代理功能,并·在后面的文本输入框输入代理IP的API,自行购买获取并输入;

最后设置链接格式,这里指的是全部域名统一的链接格式,可以如上图所示输入,支持的标签有{域名}、{字符-n}、{数字-10},并未测试是否支持年月日标签,有需要的自行测试。同时可以勾选“字母小写”,实现链接中调用字符的字母小写。

配置好上述的操作后,点击“保存参数值”,再开始运行即可。在未来的操作中,如无其他需要修改的地方,直接打开软件即可实现自动运行。

感觉家兴网络分享的《2022年9月初强引百度蜘蛛经验及总结》不错,请单个赞支持下!