• 17630273926

搜索引擎蜘蛛爬行太多未必好

作者:郑州云优化 / 2019-10-23 15:01 / 浏览次数:
搜索引擎蜘蛛爬行太多未必好
一、搜索引擎的蜘蛛,是不是爬得越多越好?
当然不是!不论什么搜索引擎的爬虫,来抓取你网站的页面的时候,肯定在消耗你的网站资源,例如网站的连接数、网络带宽资源(空间流量)、服务器的负载、甚至还有盗链等。不是所有的搜索引擎蜘蛛都是有用的。另外,搜索引擎的爬虫来抓取你的页面数据后,它也不一定收用数据。只代表它“到此一游”留下痕迹而已,有的搜索引擎室故意过来找它想要的资源,甚至还有很多是开发人员的蜘蛛测试。
对于一个原创内容丰富,URL结构合理易于爬取的网站来说,简直就是各种爬虫的盘中大餐,很多网站的访问流量构成当中,爬虫带来的流量要远远超过真实用户访问流量,甚至爬虫流量要高出真实流量一个数量级。像提高网站有效利用率虽然设置了相当严格的反爬虫策略,但是网站处理的动态请求数量仍然是真实用户访问流量的2倍。可以肯定的说,当今互联网的网络流量至少有2/3的流量爬虫带来的。因此反搜索引擎爬虫是一个值得网站长期探索和解决的问题。
搜索引擎爬虫对网站的负面影响
1.网站有限的带宽资源,而爬虫的量过多,导致正常用户访问缓慢。原本虚拟主机主机的连接数受限,带宽资源也是有限。这种情况搜索引擎爬虫受影响呈现更明显。
2.搜索引擎爬虫过频密,抓取扫描很多无效页面。甚至抓页面抓到服务器报502、500、504等服务器内部错误了,蜘蛛爬虫还在不停使劲抓取。
3.与网站主题不相关的搜索引擎爬虫消耗资源。
典型的例子搜索引擎“一淘网蜘蛛(EtaoSpider)为一淘网抓取工具。被各大电子商务购物网站屏蔽。拒绝一淘网抓取其商品信息及用户产生的点评内容。被禁止的原因首先应该是它们之间没有合作互利的关系,还有就是EtaoSpider爬虫是一个抓取最疯狂的蜘蛛。统计发现EtaoSpider爬虫的一天爬行量比“百度蜘蛛:Baiduspider”“360蜘蛛:360Spider”“SOSO蜘蛛:Sosospider”等主流蜘蛛爬虫多几倍,并且是远远的多。重点是EtaoSpider被抓取只会消耗你的网站资源,它不会给你带来访问量,或者其它对你有利用的。
4.一些搜索引擎开发程序员,它们写的爬虫程序在测试爬行。
5.robots.txt文件不是万能!
肯定有很多人认为,在robots.txt设置屏蔽搜索引擎爬虫即可,或者允许某些特定的搜索引擎爬虫,能达到你预想效果。不错正规搜索引擎会遵守规则,不过不会及时生效。但是实际中某些蜘蛛往往不是这样的,先扫描抓取你的页面,无视你的robots.txt。也可能它抓取后不一定留用;或者它只是统计信息,收集互联网行业趋势分析统计。
6.还有一种它们不是蜘蛛,但其有蜘蛛的特性。例如采集软件,采集程序,网络扫描e-mail地址的工具,各式各样的网站优化分析统计工具,千奇百怪的网站漏洞扫描工具等等。
二、有效指引搜索引擎对应的措施,及解决方法:
1.依据空间流量实际情况,就保留几个常用的屏蔽掉其它蜘蛛以节省流量。以暂时空间流量还足够使用,先保证正常浏览器优先。
2.从服务器防火墙iptable直接屏蔽蜘蛛IP段、详细的IP。这是最直接、有效的屏蔽方法。
3.WWW服务器层面做限制。例如Nginx,Squid,Lighttpd,直接通过“http_user_agent”屏蔽搜索引擎爬虫。
4.最后robots.txt文件做限制。搜索引擎国际规则还是要遵循规则的。
【郑州云优化】郑州SEO、网站建设、网站设计、服务器空间租售、网站维护、网站托管、网站优化、百度推广、自媒体营销、微信公众号
如有意向---联系我们
热门栏目
热门资讯
热门标签

网站建设 网站托管 成功案例 新闻动态 关于我们 联系我们 服务器空间 加盟合作 网站优化

备案号:ICP备*********号 网站地图/sitemap 

公司地址:河南省郑州市郑州云优化 咨询QQ:1774525808 手机:17630273926 电话:17630273926