本博丧心病狂的Robots.txt写法

作为一个强迫症患者,对搜索引擎收录结果是极为苛刻的,我的最终目的就是让搜索引擎只收录文章及首页,其他的一律不展示。

建站之初就已经写好了Robots.txt,来防止收录其他页面,标签/分页/归档等等统统禁止抓取。

今天site本网址的时候发现了漏网之鱼,竟然出现了两篇相同的文章,这还了得,果断更新Robots.txt,发现如下链接被收录:

https://daliuzi.cn/qiniu-synchronous-wordpress-file.html?preview=true&replytocom=141

https://daliuzi.cn/metro-qq-alpha.html/comment-page-1

在Robots.txt里面添加:

Disallow: /*/comment
Disallow: *?preview

然后百度站长工具——网站分析——Robots——规则校验,来检测规则写的是否达到效果。

目前本站所用的规则如下:

User-agent: *
Disallow: /wp-
Disallow: /?
Disallow: /feed
Disallow: /*/comment
Disallow: *?preview
Disallow: /*/*/feed
Disallow: /trackback
Disallow: /*/*/trackback
Disallow: /index.php?
Disallow: /index.php/
Disallow: /*.php$
Disallow: /*.css$
Disallow: /date/
Disallow: /2014
Disallow: /2015
Disallow: /page/
Disallow: /*/*/page
Disallow: /tag
Disallow: /*?replytocom=
Sitemap: https://daliuzi.cn/sitemap.xml
公益传播因为有你,爱不罕见。

转载请注明出处:大刘子 » 本博丧心病狂的Robots.txt写法

支持博主随手一点

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址