SEO是什么意思?SEO等于搜索引擎优化,它是基于搜索引擎的一种网络营销方式,隶属于SEM!

比较详细的robots.txt协议文件写法

16300℃ 12评论

很多建站系统,在建成网站后,都网站根目录,默认有robots.txt协议文件。在网站优化竞争日益加剧的今天,原本设立之初无优化因素的robots.txt文件也被最大化使用,掌握其写法,有备无患。 一:robots.txt […]

很多建站系统,在建成网站后,都网站根目录,默认有robots.txt协议文件。在网站优化竞争日益加剧的今天,原本设立之初无优化因素的robots.txt文件也被最大化使用,掌握其写法,有备无患。

一:robots.txt协议文件有什么用?

搜索引擎访问一个网站的时候,最先访问的文件就是robots.txt。她告诉搜索引擎蜘蛛,哪些网站页面可以被抓取,哪些禁止抓取。表面来看,这个功能作用有限。从搜索引擎优化的角度来看,可以通过屏蔽页面,达到集中权重的作用,这,也是优化人员最为看重的地方。

以某seo站点为例,其robots.txt文件如图所示:

robots.txt协议文件展示

二:网站设置robots.txt的几个原因。

1:设置访问权限保护网站安全。

2:禁止搜索引擎爬取无效页面,集中权值到主要页面。

三:怎么用标准写法书写协议?

有几个概念需掌握。

User-agent表示定义哪个搜索引擎,如User-agent:Baiduspider,定义百度蜘蛛。

Disallow表示禁止访问。

Allow表示运行访问。

通过以上三个命令,可以组合多种写法,允许哪个搜索引擎访问或禁止哪个页面。

四:robots.txt文件放在那里?

此文件需放置在网站的根目录,且对字母大小有限制,文件名必须为小写字母。所有的命令第一个字母需大写,其余的小写。且命令之后要有一个英文字符空格。

五:哪些时候需要使用该协议。

1:无用页面,很多网站都有联系我们,用户协议等页面,这些页面相对于搜索引擎优化来讲,作用不大,此时需要使用Disallow命令禁止这些页面被搜索引擎抓取。

2:动态页面,企业类型站点屏蔽动态页面,有利于网站安全。且多个网址访问同一页面,会造成权重分散。因此,一般情况下,屏蔽动态页面,保留静态或伪静态页面。

3:网站后台页面,网站后台也可以归类于无用页面,禁止收录有百益而无一害。

来源:robots.txt协议

当前位置:seo教程 » SEO优化技术 »
本文地址:http://www.xminseo.com/2446.html
喜欢 (14)or分享 (0)
发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
(12)个小伙伴在吐槽
  1. 在做seo的过程中,不断积累,会不断发现,一些看似简单的元素,实则对网站的排名,流量结果很重要,诸如robots.txt协议,404页面,网站内链建设,图片alt等。

    seo研究协会网2017-12-11 17:42 回复
  2.   robots.txt怎么写
      1、允许所有搜索引擎访问
      User-agent: *
      Disallow:
      或者
      User-agent: *
      Allow: /
      在这里大家要注意下,可以最直接的建一个空文件 “robots.txt”然后放到网站的根目录。
      2、禁止所有搜索引擎访问
      User-agent: *
      Disallow: /
      或者
      User-agent: *
      allow:
      3、禁止所有搜索引擎访问网站中的几个部分,在这里我用a、b、c目录来代替
      User-agent: *
      Disallow: /a/
      Disallow: /b/
      Disallow: /c/
      如果是允许,则是
      Allow: /a/
      Allow: /b/
      Allow: /c/
      4、禁止某个搜索引擎的访问,我用w来代替
      User-agent: w
      Disallow: /
      或
      User-agent: w
      Disallow: /d/*.htm
      在Disallow:后面加 /d/*.htm的意思是禁止访问/d/目录下的所有以”.htm”为后缀的URL,包含子目录。
      5、只允许某个搜索引擎的访问,我用e来代替
      User-agent: e
      Disallow:
      在Disallow:后面不加任何东西,意思是仅允许e访问该网站。
      6、使用”$”限制访问url
      User-agent: *
      Allow: .htm$
      Disallow: /
      意思是仅允许访问以”.htm”为后缀的URL
      7、禁止访问网站中所有的动态页面
      User-agent: *
      Disallow: /*?*
      8、禁止搜索引擎F抓取网站上所有图片
      User-agent: F
      Disallow: .jpg$
      Disallow: .jpeg$
      Disallow: .gif$
      Disallow: .png$
      Disallow: .bmp$
      意思是只允许引擎抓取网页,禁止抓取任何图片(严格来说,是禁止抓取jpg、jpeg、gif、png、bmp格式的图片。)
      9、只允许搜索引擎E抓取网页和.gif格式图片
      User-agent: E
      Allow: .gif$
      Disallow: .jpg$
      Disallow: .jpeg$
      Disallow: .png$
      Disallow: .bmp$
      意思是只允许抓取网页和gif格式图片,不允许抓取其他格式图片

    seo学堂2017-12-06 09:04 回复
  3. 给大家一种比较简单的方法来设置网站的robots协议,那就是直接参考相关网站的设置。找到别人网站的文件也较容易,即主域名下的相关文件,如小明seo的为:http://www.xminseo.com/robots.txt。

    小明seo2017-10-08 18:08 回复
  4. 详细阅读了robots协议文档,相当受用。

    seo大牛2017-10-07 19:15 回复
  5. 这个东西很简单啊,是seoer都应该会,是基本技能。

    铭伟SEO教程2017-09-30 18:23 回复
  6. 最开始学建站的时候,就知道有robots协议,原来还有这么多门门道道!

    贵阳seo2017-09-25 19:20 回复
  7. 这个文件如果设置不当,就会对网站产生致命问题。以前设置错误了,把所有的搜索引擎都屏蔽掉了,导致网站很长时间都没有收录,前车之鉴!

    小明seo2017-09-20 10:40 回复
    •   robots.txt禁止收录协议的写法
        1) 允许所有搜索引擎访问网站的所有部分
        robots.txt写法如下:
        User-agent: *
        Disallow:
        或者
        User-agent: *
        Allow: /
        注意: 1. 第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。
        2) 禁止所有搜索引擎访问网站的所有部分
        robots.txt写法如下:
        User-agent: *
        Disallow: /
        3) 只需要禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引
        robots.txt写法如下:
        User-agent: *
        Disallow: /css/
        Disallow: /admin/
        Disallow: /images/
        注意:路径后面有斜杠和没有斜杠的区别:比如Disallow: /images/ 有斜杠是禁止抓取images整个文件夹,Disallow: /images 没有斜杠意思是凡是路径里面有/images关键词的都会被屏蔽
        4)屏蔽一个文件夹/templets,但是又能抓取其中一个文件的写法:/templets/main
        robots.txt写法如下:
        User-agent: *
        Disallow: /templets
        Allow: /main
        5) 禁止访问/html/目录下的所有以”.php”为后缀的URL(包含子目录)
        robots.txt写法如下:
        User-agent: *
        Disallow: /html/*.php
        6) 仅允许访问某目录下某个后缀的文件,则使用“$”
        robots.txt写法如下:
        User-agent: *
        Allow: .html$
        Disallow: /
        7)禁止索引网站中所有的动态页面
        比如这里限制的是有“?”的域名,例如index.php?id=1
        robots.txt写法如下:
        User-agent: *
        Disallow: /*?*
        8) 禁止搜索引擎抓取我们网站上的所有图片(如果你的网站使用其他后缀的图片名称,在这里也可以直接添加)
        有些时候,我们为了节省服务器资源,需要禁止各类搜索引擎来索引我们网站上的图片,这里的办法除了使用“Disallow: /images/”这样的直接屏蔽文件夹的方式之外,还 可以采取直接屏蔽图片后缀名的方式。
        robots.txt写法如下:
        User-agent: *
        Disallow: .jpg$
        Disallow: .jpeg$
        Disallow: .gif$
        Disallow: .png$
        Disallow: .bmp$
        写robots.txt要注意的地方
        1. 第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。
        2. 斜杠:/ 代表整个网站
        3.如果“/”后面多了一个空格,则屏蔽整个网站
        4.不要禁止正常的内容
        5.生效时间是几天到两个月

      seo研究协会网2017-12-11 17:52 回复
  8. 默认的在网站根目录下找不到

    小飞2017-09-17 10:22 回复
    • 应该是没有找对地方,以织梦为例,robots.txt文件在htdocs目录下。

      小明seo2017-09-17 11:33 回复
    • 以小明seo博客的wordpress程序为例,robots文件位置在wwwroot/www.xminseo.com/robots.txt。

      小明seo2017-09-17 11:37 回复
  9. 很多建站系统,在根目录下,都有默认的robots.txt文件。对于使用了建站系统,但做了一些改变的网站来讲,必须对robots进行再次设置,且默认的文件设置本身就有缺陷。

    小明seo2017-09-17 08:41 回复