全球主机交流论坛

标题: .htaccess 屏蔽垃圾蜘蛛 [打印本页]

作者: 满意沟通    时间: 2012-7-20 17:34
标题: .htaccess 屏蔽垃圾蜘蛛
本帖最后由 满意沟通 于 2012-9-14 17:19 编辑

很多不安robots.txt的来的
在用.htaccess 搞一下
运行出错的时候自己删掉部分 排查
  1. <IfModule mod_rewrite.c>
  2.         RewriteEngine on
  3.         RewriteCond %{HTTP_USER_AGENT} "360space|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|curl|perl|Python|Wget|Xenu|ZmEu|Collapsar" [NC]
  4.         RewriteRule !(^robots\.txt$) http://en.wikipedia.org/wiki/Robots_exclusion_standard [F=403,L]

  5. </IfModule>
复制代码
文章来源:http://www.yilufafa.net/Linux-hosting-use-htaccess-file-to-prevent-bad-robots
作者: 西崽猪猪    时间: 2012-7-20 17:34
你把百度也屏蔽的挺垃圾的
作者: star826    时间: 2012-7-20 17:35
提示: 作者被禁止或删除 内容自动屏蔽
作者: 满意沟通    时间: 2012-7-20 17:36
西崽猪猪 发表于 2012-7-20 17:34
你把百度也屏蔽的挺垃圾的

这个我可不敢哦

中文站 屏蔽百度 除了淘宝 ...
作者: walkman660    时间: 2012-7-20 17:49
还是用robots.txt安全些,指定几个蜘蛛的频率,其他的一律半小时一次或者更长
作者: 满意沟通    时间: 2012-7-20 18:10
walkman660 发表于 2012-7-20 17:49
还是用robots.txt安全些,指定几个蜘蛛的频率,其他的一律半小时一次或者更长 ...

这个是对付那些不安robots.txt规则的
作者: 藐视天地    时间: 2012-7-20 18:50
好屌 我看不懂
作者: ramonde    时间: 2012-7-20 18:59
做个记号,用得着
作者: 满意沟通    时间: 2012-7-20 19:53
藐视天地 发表于 2012-7-20 18:50
好屌 我看不懂

亲 会用就好
作者: hitsword    时间: 2012-7-20 19:56
MARK
作者: 誓誓    时间: 2012-7-20 22:39
马克
作者: 飞天金猪    时间: 2012-7-20 22:43
360space  是什么?
作者: 满意沟通    时间: 2012-7-21 02:01
飞天金猪 发表于 2012-7-20 22:43
360space  是什么?

这个经常只爬 favicon.ico
作者: 汉陈帝国    时间: 2012-7-21 02:54
标记
作者: 信仰    时间: 2012-7-21 03:06
做个记号,用得着
作者: 满意沟通    时间: 2012-7-25 15:05
增加 一个疑似奇虎家的
作者: 唐伯虎    时间: 2012-7-25 15:34
感谢分享,做个标记!




欢迎光临 全球主机交流论坛 (https://sunk.eu.org/) Powered by Discuz! X3.4