作为一个强迫症患者,对搜索引擎收录结果是极为苛刻的,我的最终目的就是让搜索引擎只收录文章及首页,其他的一律不展示。
建站之初就已经写好了Robots.txt,来防止收录其他页面,标签/分页/归档等等统统禁止抓取。
今天site本网址的时候发现了漏网之鱼,竟然出现了两篇相同的文章,这还了得,果断更新Robots.txt,发现如下链接被收录:
https://daliuzi.cn/qiniu-synchronous-wordpress-file.html?preview=true&replytocom=141
https://daliuzi.cn/metro-qq-alpha.html/comment-page-1
在Robots.txt里面添加:
Disallow: /*/comment
Disallow: *?preview
然后百度站长工具——网站分析——Robots——规则校验,来检测规则写的是否达到效果。
目前本站所用的规则如下:
User-agent: * Disallow: /wp- Disallow: /? Disallow: /feed Disallow: /*/comment Disallow: *?preview Disallow: /*/*/feed Disallow: /trackback Disallow: /*/*/trackback Disallow: /index.php? Disallow: /index.php/ Disallow: /*.php$ Disallow: /*.css$ Disallow: /date/ Disallow: /2014 Disallow: /2015 Disallow: /page/ Disallow: /*/*/page Disallow: /tag Disallow: /*?replytocom= Sitemap: https://daliuzi.cn/sitemap.xml
公益传播:因为有你,爱不罕见。
转载请注明出处:大刘子 » 本博丧心病狂的Robots.txt写法