今早在www.aspalliance.com上看到一篇文章(stopping automated web robots visiting asp/asp.net websites
转载请注明出处-中国设计秀-cnwebshow.com
,http://aspalliance.com/1018_stopping_automated_web_robots_visiting_aspaspnet_websites),
主要是讲了下如何采取一些措施,防止robot过度去抓你的网站。看了一下,有的东西还是值得探讨下的,现归纳如下:
1、辨认robot的一些参考标准
large numbers of requests from a single ip address or a range of ip addresses within the same subnet (i.e. the first three numbers of the ip address are identical).
· large numbers of requests for database driven content compared to the rest of the website.
· many requests made from browsers that do not support asp sessions.
· lots of and increasing numbers of website visitors, but no corresponding increase in transactions (e.g. sales!).
· large numbers of spam or automated requests being generated from online forms.
2、到http://www.robotstxt.org/wc/norobots.html上,可以找到一个组织提出的防御robot的建议标准(可惜这个不是什么权威标准拉,没什么约束力),在这里有一些平常我们可以用到的例子和方法,主要是搞一个robot.txt文件,放在网站根目录下,比如
useragent: *
disallow: /
禁止所有robot
允许所有的robot访问:
useragent: *
disallow:
useragent: *
disallow: /cyberworld/map/ 不允许robot探访/cyberworld/map目录下的文件
useragent: cybermapper 允许cybermapper这个robot
disallow:
useragent: *
disallow: /cyberworld/map/
disallow: /tmp/
disallow: /foo.html 不允许访问foo.html这个文件了
3、如果不方便设置robot.txt的话,还可以在meta里做手脚,比如用
<meta name="robots" content="noindex, nofollow">
可以单独对某页设置防御robot
4 减慢robot的疯狂访问。如果发现robot疯狂对你的站访问,而造成效率的降低的话,可以减低
robot的访问,
useragent: slurp
crawldelay: 10
是针对yahoo的,具体可以到http://help.yahoo.com/help/us/ysearch/slurp/slurp03.html
去看详细情况。
但其实有的robot很智能的,有时不会那么蠢真的一拥而上地去访问。
5、如果发现不单是robot,是有恶意的攻击某页的话,文章中说可以找
http://www.peterblum.com/vam/visetools.aspx#sdm.
这个工具试试
当然,之前好象cnblogs也受到robot的困扰,因此欢迎各位多发表意见,提下自己的一些
办法。
http://www.cnblogs.com/jackyrong/archive/2006/09/26/514917.html