当前位置: 首页 > SEO基础知识 > 正文

网站优化robots.txt文件的作用及写法

robots.txt文件站长朋友应该不陌生,搜索引擎有自己的搜索习惯,当它对一个网站进行搜索时,哪些目录和文件要看,哪些不用看,它有自己的算法。我们也可以自己建立一个robots.txt文件,告诉搜索引擎的机器人哪些可以被收录,哪些不需要收录。这样可以节约自己网站的资源,提高被搜索引擎收录的效率。

robots.txt文件的作用:
1、屏蔽网站内的死链接。2、屏蔽搜索引擎蜘蛛抓取站点内重复内容和页面。3、阻止搜索引擎索引网站隐私性的内容。
因此建立robots.txt文件是很有必要的,网站中重复的内容、页面或者404信息过多,搜索引擎蜘蛛就会认为该网站价值较低,从而降低对该网站的“印象分”,这就是我们经常听到的“降低权重”,这样网站的排名就不好了。

robots文件的写法

这一点应该是比较重要的了。如果写错了想屏蔽的没成功,想被抓取的却写进去自己不能及时发现可就亏大了。首先我们要知道两个标签,Allow和Disallow,一个是允许,一个是不允许,它的作用相比大家也都能理解。

User-agent: *

Disallow:

或者

User-agent: *

Allow:

这两段内容表示的都是允许抓取所有,实际上屏蔽url和文件用到的是Disallow标签,除非你的网站只有几条想要被抓取采用Allow标签。这个User-agent:后面跟的就是蜘蛛名称,大家对主流的搜索引擎蜘蛛名称应该比较熟悉。下面以搜搜蜘蛛为例:Sosospider。

当我们想屏蔽搜搜蜘蛛的时候:

User-agent: sosospider

Disallow: /

大家可以发现这个屏蔽蜘蛛跟上面允许相比只是多了一个“/”,其含义就起了翻天覆地的变化,所以在书写的时候要千万注意,可不能因为多写个斜杠屏蔽了蜘蛛自己却不知道。还有就是在user-agent:后边不屑固定蜘蛛名称跟的如果是“*”表示是针对所有蜘蛛的。

禁止某个目录被搜索引擎蜘蛛抓取,设置代码如下:

User-agent: *

Disallow: /目录/

注意,这里如果是阻止抓取某目录的话目录名字一定要注意“/”,不带“/”表示的是阻止访问这个目录页面和目录下的页面,而带上“/”则表示进阻止目录下的内容页面,这两点要分清楚。如果是想屏蔽多个目录就需要采用

User-agent: *

Disallow: /目录1/

Disallow: /目录2/

这样的形式,不能采用 /目录1/目录2/ 这样的形式。

如果是阻止蜘蛛访问某一类型的文件,例如阻止抓取.jpg格式的图片可以设置成:

User-agent: *

Disallow: .jpg$

下面看几个来自百度的例子:
1)禁止百度索引,淘宝就这么写的
User-agent: Baiduspider
Disallow: /
2)禁止百度抓取JPG图片
User-agent: Baiduspider
Disallow: .jpg$
3)仅允许访问以”.htm”为后缀的URL。
User-agent: *
Allow: .htm$
Disallow: /
4)禁止某些目录,但允许其目录下某些文件被索引
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

总结下来,/代表全部,*代表任意个字符,$代表强制结束符,禁止某个文件夹或者文件的时候要写上/,但禁止一类文件的时候直接写.***即可。

注意:robots.txt文件必须放置在网站根目录;有域名指向到次目录,在次目录放置的robots.txt文件只对此域名有效。其次,文件名必须小写,如Robots.txt、roBots.txt、robots.TXT都是错误的。

网站优化robots.txt文件的作用及写法:目前有1 条留言

  1. 沙发
    360图书馆:

    学习了,很不错

    2015-02-01 上午1:14 [回复]

发表评论

快捷键:Ctrl+Enter