搜索引擎, 请手下留情

     今天凌晨1点左右, 在进行一个晚上的性能优化后，准备睡觉时，我突然想：这么晚了，看还有哪些忠实的用户在访问博客园？打开性能监视器，Current Connections竟然有200-300, 高的时候会达到400左右，这么晚了还有这么多用户，我有点怀疑，是不是有什么软件不停地在爬网站的数据, 而且Current Connections一直在200以上，有必要记录一下这些访问来自何方？
     连续一个多星期的奋战已经让我很累，真想早点睡觉，明天再说。可是如果明天白天进行处理，会对网站的运行带来更大的影响，而且网站的性能问题一定要尽快解决，不能再拖下去了。这时，我心里已经在猜测搜索引擎可能是很大的嫌疑对象。
     于是，我打起精神，写了点代码，记录所有访问博客园的客户端IP地址及UserAgent。在记录的过程中，我就发现果然有搜索引擎在不停地访问博客园，进行了半小时的记录后，我对记录数据进行了分析，大家先看看数据：
     测试时间：1:05-1:35
     最大访问来自（UserAgent）：sohu agent
     访问次数：8439
     平均每分钟访问次数：287

     好狠的搜索引擎！在肆无忌惮地爬博客园的数据，难怪这么晚还有那么多链接。如果它整天都在这样爬博客园的数据, 那对网站的性能会带来很大的影响，它也许是博客园最近性能问题的凶手之一。没办法，为了网站性能，只能对这样的搜索引擎说“不”，我立即修改代码，拒绝了这个爬虫(sohu agent)! 效果要到早上上班才能看出来。
      今天早上，为了防止还有其他疯狂的爬虫，我又对网站访问进行了记录，对记录数据进行分析后又发现了一个疯狂的爬虫：

     测试时间：7:19-7:30
     最大访问来自(UserAgent): Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
     访问次数：2906
     平均每分钟访问次数：264

     继续对它说“不”，拒绝它对博客园的访问。
     你可能要问：Google是爬虫的情况怎么样？在记录数据中，Google排名第二，但访问次数不多，只有459, 少好几倍。
     虽然这样的分析数据不全面，但对于搜索引擎来说，这样疯狂爬一个网站的数据是不妥的。当它在疯狂地吸取一个网站的数据时，是否考虑会给对方造成影响。Google网站上有这样的说明：“对大多数网站来说，Googlebot 的平均访问频率不会高于数秒钟一次。” 看来Google还是考虑到这个问题了。而发现的这两个疯狂的爬虫，竟然达到了4次/秒。如果它们不停地这样访问一个网站，一般网站的性能会很受影响。看来，博客园最近的性能问题的罪魁祸首可能就是它们了。
     拒绝了这两个爬虫(sohu agent与Yahoo! Slurp) 对博客园的访问后，从早上到现在的网站运行情况看，网站性能有了明显的提高，CPU占用明显降下来，平均只有50%, 前几天，CPU占用率几乎就是一条直线。
     现在，垃圾广告、垃圾邮件是互联网很头疼的问题，也许以后“垃圾爬虫”也会加入它们的行列。
     博客园的性能问题是否能真正解决，还要看今天一天网站的运行情况，希望今天晚上能睡个好觉。

posted @ 2005-10-27 10:33 dudu 阅读(5527) 评论(83) 收藏举报

努力加载评论中...

刷新页面返回顶部

搜索引擎, 请手下留情

公告