宝塔面板根据访问协议头屏蔽字节跳动爬虫

最近,字节跳动搜索引擎的爬虫疯狂爬取全网资源,导致一些小网站服务器不堪重负,严重的直接使网站宕机。 我们有很多方法可屏蔽掉爬虫,比如 robot.txt ,但是貌似字节跳动旗下的今…

最近,字节跳动搜索引擎的爬虫疯狂爬取全网资源,导致一些小网站服务器不堪重负,严重的直接使网站宕机。

我们有很多方法可屏蔽掉爬虫,比如 robot.txt ,但是貌似字节跳动旗下的今日头条爬虫比较流氓,他不遵守这个!还有一个通过屏蔽IP的方式,但是一般爬虫的IP地址比较多,这个也挺麻烦。

这里站长图库介绍一种方法,有一定的效果,如下:

nginx在站点的设置,配置文件中 server{ } 中添加

#禁止爬虫工具的抓取if($http_user_agent~*"Bytespider|YisouSpider"){return403;}

注:Bytespider 为字节跳动爬虫的协议头

Apache:

在伪静态里设置 这里以thinkphp为例!

<IfModulemod_rewrite.c>RewriteEngineonRewriteCond%{REQUEST_FILENAME}!-dRewriteCond%{REQUEST_FILENAME}!-fRewriteRule^(.*)$index.php[L,E=PATH_INFO:$1]#禁止爬虫工具的抓取RewriteCond%{HTTP_USER_AGENT}"^.*Bytespider.*|.*YisouSpider.*$"[NC]RewriteRule^(.*)$-[R=404,L]</IfModule>

以上,就是根据访问协议头屏蔽字节跳动爬虫的方法,希望能对大家有所帮助!

产品猿社区致力收录更多优质的商业产品,给服务商以及软件采购客户提供更多优质的软件产品,帮助开发者变现来实现多方共赢;

日常运营的过程中我们难免会遇到各种版权纠纷等问题,如果您在社区内发现有您的产品未经您授权而被用户提供下载或使用,您可按照我们投诉流程处理,点我投诉

本文来自用户发布投稿,不代表产品猿立场 ;若对此文有疑问或内容有严重错误,可联系平台客服反馈;

部分产品是用户投稿,可能本文没有提供官方下下载地址或教程,若您看到的内容没有下载入口,您可以在我们产品园商城搜索看开发者是否有发布商品;若您是开发者,也诚邀您入驻商城平台发布的产品,地址:点我进入

如若转载,请注明出处:https://www.chanpinyuan.cn/31434.html;
(0)
上一篇 2022年12月29日 下午4:17
下一篇 2022年12月31日 下午4:17

相关推荐

发表回复

登录后才能评论
分享本页
返回顶部