我晕
msgbartop
其实我不晕:)
msgbarbottom

我晕!网站管理员工具(google webmasters) 如此重要

( 2010-08-08 )

昨天打开了一下google的网站管理员工具,看到了触目惊心的一张统计图

天那,google3个月来几乎没怎么抓取我的网站。。。 难怪我的pr从8掉到了7,再回头看看数据统计,更是夸张,下面是从google来访的统计这是怎么回事儿呢? 基本可以判定是google的爬虫无法访问我的网站,或者访问的过程中遇到了什么障碍。

接下来就是分析问题的原因了

1. 首先查看网站的日志,发现最新的1000条里还有googlebot 造访的记录

2. 用google搜我一直排第一的关键词,结果前10页都没有翻到我,排第一的是一个极其恶心的网站,郁闷。

3. 用google网站管理员工具种的像google bot 一样去抓取功能,抓一下首页,发现失败,看来真的是google无法访问我的网站。

4. 看来要找google访问不了我的原因了,服务器是我独用的,没有其他网站,也没有邮件服务器或者其他,更没有欺骗搜索引擎的脚本,所以ip被google封掉的可能性不大。那就只能说明是我把google的ip封掉了! 因为之前遭遇cc攻击,写过一个封禁的脚本,自动把访问量超过一定限制的ip用iptables block 掉。

5. 我把 iptables 暂时停用,然后再用google网站管理员工具模拟一下googlebot,神奇的事情发生了,居然立即显示了成功状态和抓取结果。赶紧再查一下日志,发现google是通过 203.208.60.x 这个ip来抓取的。赶紧再去看一下封禁记录,发现这个c段的四五个ip都是在4月份被我的脚本自动封掉的:(  记得我当时还是分析了3个月的googlebot抓取的频率,才设定的每分钟访问动态页面超过150个被视为攻击,脚本跑了一年多,也没见google或者baidu的抓取异常。。。 莫非今年4月份的时候google修改了抓取频率了?

6. 回想起当年写这个脚本的原因,就是在08年底的时候遭遇了恐怖的cc攻击,后来写了脚本防范,为了防止误杀搜索引擎,所以加了 grep -i  ‘xxxx|xxxx’ 的管道,结果这个攻击的人更过分,直接把 refferr 写成和 google bot 一样的方式,几千国外代理一起上来!然后我又改算法。。。。

结果搞清楚了,也可以避免问题的发生了,在这里要提醒做站的朋友,google webmasters 是个好东西,一定要定期查看。写自动封禁的脚本,一定要考虑到搜索引擎误伤问题,千万别犯我一样的错误。


Tags: , ,