解决启用wp super cache缓存后,页面追加多个斜杠仍然可以访问的隐患

时间:2022-05-05
本文章向大家介绍解决启用wp super cache缓存后,页面追加多个斜杠仍然可以访问的隐患,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

昨天一哥们在博客留言告知,启用缓存后,html 文章页面带上斜杠也还可以访问,试了下还真是这样。

其实,想想也是,wp-super-cache 生成的文章缓存本身是以【%post_id%.html/index.html】形式存在的:

和目录形式一摸一样,那么加上斜杠后就相当于访问的是 http://****/1234.html/index.html,自然毫无问题。

那么按照这个哥们的想法,访问 2 个不同的页面,出现的确实一样的效果,那么自然会想到对 SEO 不太友好,会不会出现重复收录的问题。我觉得搜索引擎虽然偶尔会出现这种脑残收录,不过几率应该不大,除非你到处留了带斜杠结尾的内、外链,让蜘蛛爬到了。

正好,我也是一个完美主义,这种事还是要动手解决解决的。

针对 html 页面,追加一个斜杠还可以访问的情况,我在 nginx 里面新增如下规则即可搞定:

rewrite ^/(.*).html/$ /$1.html permanent;

额外补充一下 apache 的规则(未作测试,凭经验写的,有需求的自己调试吧!):

RewriteRule ^(.*).html/$ $1.html [R=301,L]

现在再遇到往 html 后面添加一个斜杠的情况,就会自动 301 跳到不带斜杠的 html 页面,本以为问题解决了,没想到这哥们又说了,带 N 个斜杠还是可以访问,也不会跳转!

我次奥,还真是!试了一下别人的网站,比如卢松松的留言板,多加几个斜杠同样是可以访问的,既然他的网站 SEO 无碍,我们也就没什么好担心的了!

不过,我还是试了一下写相应的匹配规则,无奈正则匹配了半天多斜杠形式都没效果,最后我想到了另一个解决办法,那就是利用 robots 禁止搜索引擎抓取这种形式的路径,规则如下:

User-Agent: *
#其他规则已省略.
Disallow: /*//
Disallow: /*.html/

哦了,相信这样就可以解决追加斜杠仍然可以访问带来的 SEO 隐患了!

最新补充:偶然在日志发现蜘蛛居然经常爬 http://zhangge.net/about/22222244445555 这种链接,明明不存在,但又确实可以访问!只要继续新增 nginx 规则如下:

rewrite ^/([a-z-A-Z]+)/(d+)$ /$1/ permanent;
rewrite ^/([a-z-A-Z]+)/([a-z-A-Z]+)/(d+)$ /$1/$2/ permanent;

搞不懂蜘蛛是怎么想,反正挺坑爹!