seo是什么意思?seo等于搜索引擎优化,它是基于搜索引擎的一种网络营销方式,隶属于sem --- 武汉小明seo教程,专注seo优化技术培训!
当前位置:首页 » 大杂烩 » 谨慎对待spider蜘蛛提升网站收录比

谨慎对待spider蜘蛛提升网站收录比

大杂烩 982℃ 17评论

seo人都是非常关注网站收录量以及页面收录比的,从搜索引擎来看,收录与spider蜘蛛有着直接的关系。通过主动或者被动的方式,让程序更好的收录网站内容,是做网站seo的基础。

spider蜘蛛是什么抓取互联网中海量的链接呢?无外乎两个方法。

谨慎对待spider蜘蛛提升网站收录比

第一个方法是类似于扫描的方式,主动爬取链接。

第二个方法是seo人通过站长平台的链接提交工具,将自己网站的新内容链接页提交给搜索引擎。注:对于用户主动推送的链接,搜索引擎是有特别的喜好的。

很多站长会常常面临一个问题,那就是整站的内容长手机不被收录,或者被收录的量很少,或者被收录的页面占比很低,即使使用了链接提交等方法,依旧如此。对于收录问题,是有很多影响因素的,如内容质量度,站点质量,页面本身的质量等,其中与spider蜘蛛的关系颇大,本文就这个因素,做一些说明。希望seoer把这个方面把控好。

有哪些因素会造成spider蜘蛛无法正常爬取网站内容?

1:错误的robots协议设置。网站的robots文件是搜索引擎看网站的第一个文件,这个文件的设置错误如禁止搜索引擎爬取会导致无法受理。小明seo以前就犯了类似的错误。

2:内容本身的质量度。搜索引擎算法不断完善,对于大部分的低质量内容都可以进行识别,对于优质内容如时效性内容会优先进行质量评估,对于低质量内容如空洞内容,过度优化页面进行降分对待。这与百度一直提倡的优质内容遥相呼应。小明关于写作内容,有写作”百度判定网站优质内容的几个维度“,可仔细阅读。

3:spider蜘蛛无法正常抓取。除开robots协议禁封以外,还存在别的方面导致蜘蛛无法爬取。典型的情况是网站打开速度慢,服务器不稳定或者宕机,这些情况就会导致收录问题。

4:seo容易忽略的网站抓取配额问题。通常情况下,蜘蛛会根据网站的日常更新频率下发特定的抓取配额,这种情况下不会影响抓取收录问题,但有的时候网站被黑等情况,会导致网站的页面数量爆发式增长。一方面这些页面属于灰色页面,另外一方面,爆发的新页面会因为网站原先的抓取配额限制而导致网站造成的页面无法被爬取和收录。

影响网站收录的原因方方面面,采用排查法,从各种方面排查不正常收录的原因,才能提升网站的收录量与收录比。

注:索引库是分级的,内容收录后,进入优质索引库,产生排名的几率才会更高。这说明:网站收录并不是量大就好。

喜欢 (7)or分享 (0)
发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
(17)个小伙伴在吐槽
  1. 所有的收录都是从百度蜘蛛开始的,从原始点来思考,很多东西都能看懂。

    seo教程网2017-12-05 23:06 回复
  2. 胜读十年书

    seo优化网2017-12-01 20:48 回复
  3. 收录重要,收录比重要,质量更重要。

    武汉seo2017-11-30 22:38 回复
  4. 收录比比收录量更重要,内容质量比收录更重要。

    刑天seo2017-11-29 22:30 回复
  5. 收录,是一个永久的话题。

    seo研究协会网2017-11-28 21:20 回复
  6.   详细介绍百度spider
      1. 什么是Baiduspider
      Baiduspider是百度搜索引擎的一个自动程序,它的作用是访问互联网上的网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站上的网页。
      2. Baiduspider的user-agent是什么?
      百度各个产品使用不同的user-agent:
      产品名称
      对应user-agent
      网页搜索
      Baiduspider
      无线搜索
      Baiduspider
      图片搜索
      Baiduspider-image
      视频搜索
      Baiduspider-video
      新闻搜索
      Baiduspider-news
      百度搜藏
      Baiduspider-favo
      百度联盟
      Baiduspider-cpro
      商务搜索
      Baiduspider-ads
      3. Baiduspider对一个网站服务器造成的访问压力如何?
      为了达到对目标资源较好的检索效果,Baiduspider需要对您的网站保持一定量的抓取。我们尽量不给网站带来不合理的负担,并会根据服务器承 受能力,网站质量,网站更新等综合因素来进行调整。如果您觉得baiduspider的访问行为有任何不合理的情况,您可以反馈至反馈中心。
      4. 为什么Baiduspider不停的抓取我的网站?
      对于您网站上新产生的或者持续更新的页面,Baiduspider会持续抓取。此外,您也可以检查网站访问日志中Baiduspider的访问是否正常,以防止有人恶意冒充Baiduspider来频繁抓取您的网站。 如果您发现Baiduspider非正常抓取您的网站,请通过反馈中心反馈给我们,并请尽量给出Baiduspider对贵站的访问日志,以便于我们跟踪处理。
      5. 如何判断是否冒充Baiduspider的抓取?
      建议您使用DNS反查方式来确定抓取来源的ip是否属于百度,根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:
      5.1 在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
      $ host 123.125.66.120
      120.66.125.123.in-addr.arpa domain name pointer
      baiduspider-123-125-66-120.crawl.baidu.com.
      host 119.63.195.254
      254.195.63.119.in-addr.arpa domain name pointer
      BaiduMobaider-119-63-195-254.crawl.baidu.jp.
      5.2 在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
      5.3 在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip,来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
      6. 我不想我的网站被Baiduspider访问,我该怎么做?
      Baiduspider遵守互联网robots协议。您可以利用robots.txt文件完全禁止Baiduspider访问您的网站,或者禁止 Baiduspider访问您网站上的部分文件。 注意:禁止Baiduspider访问您的网站,将使您的网站上的网页,在百度搜索引擎以及所有百度提供搜索引擎服务的搜索引擎中无法被搜索到。关于 robots.txt的写作方法,请参看我们的介绍:robots.txt写作方法
      您可以根据各产品不同的user-agent设置不同的抓取规则,如果您想完全禁止百度所有的产品收录,可以直接对Baiduspider设置禁止抓取。
      以下robots实现禁止所有来自百度的抓取:
      User-agent: Baiduspider
      Disallow: /
      以下robots实现禁止所有来自百度的抓取但允许图片搜索抓取/image/目录:
      User-agent: Baiduspider
      Disallow: /
      User-agent: Baiduspider-image
      Allow: /image/
      请注意:Baiduspider-cpro抓取的网页并不会建入索引,只是执行与客户约定的操作,所以不遵守robots协议,如果Baiduspider-cpro给您造成了困扰,请联系union1@baidu.com。
      Baiduspider-ads抓取的网页并不会建入索引,只是执行与客户约定的操作,所以不遵守robots协议,如果Baiduspider-ads给您造成了困扰,请联系您的客户服务专员。
      7. 为什么我的网站已经加了robots.txt,还能在百度搜索出来?
      因为搜索引擎索引数据库的更新需要时间。虽然Baiduspider已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要数月时间才会清除。另外也请检查您的robots配置是否正确。
      如果您的拒绝被收录需求非常急迫,也可以通过反馈中心反馈请求处理。
      8. 我希望我的网站内容被百度索引但不被保存快照,我该怎么做?
      Baiduspider遵守互联网meta robots协议。您可以利用网页meta的设置,使百度显示只对该网页建索引,但并不在搜索结果中显示该网页的快照。
      和robots的更新一样,因为搜索引擎索引数据库的更新需要时间,所以虽然您已经在网页中通过meta禁止了百度在搜索结果中显示该网页的快照,但百度搜索引擎数据库中如果已经建立了网页索引信息,可能需要二至四周才会在线上生效。
      9. Baiduspider抓取造成的带宽堵塞?
      Baiduspider的正常抓取并不会造成您网站的带宽堵塞,造成此现象可能是由于有人冒充Baiduspider恶意抓取。如果您发现有名为Baiduspider的agent抓取并且造成带宽堵塞,请尽快和我们联系。您可以将信息反馈至反馈中心,如果能够提供您网站该时段的访问日志将更加有利于我们的分析。
      如果大家对百度spider还有别的疑问,大家可以到[学院同学汇][学习讨论] 《 百度spider介绍》讨论帖中发表自己的看法,我们的工作人员会关注这里并与大家进行探讨。

    seo教程自学网2017-11-27 20:29 回复
    • 对于百度spider,做了非常详细的描述。seo教程涵盖的点很多,需要逐个掌握。

      小明seo2017-11-27 20:37 回复
  7. 一直认为,收录比比收录量更为重要。

    seo教程自学网2017-11-26 15:34 回复
    • 有这种情况,收录很多,但没有关键词排名,问题可能在于被收录的内容,放入了底层库中。

      小明seo2017-11-26 15:47 回复
  8. 潜心学习,认真拜读!

    三五创业网2017-11-16 21:14 回复
    •   武汉SEO博客:网站收录比急剧下降的原因有那些?
        已经好几天没更新文章了,实在非常抱歉,连微博客也没更新,今天分享的主题就是百度收录减少的原因,因为刚好在2个星期前,我的一个新站收录从50多下降到10几条(企业站点,内容并不是很多,而且很多重复的内容和低质量的伪原创),当时添加文章后秒收,但是总收录数量还是不断减少(相信这样的新站效应很多朋友都遇见过吧),不过现在已经恢复了,而且这个网站的几个主关键词排名都在前几名,至于网站就不公布了,主要在于分享今日的这个话题,咱们只要对症才能下药,所以在这里就分享出主要的一些造成网站收录减少的原因。
        一、网站自身问题:
        1、文章质量:网站收录比下降?在开篇的时候我就说了,我做的这个企业站点收录从50多一下下降到10几条,当时第一感觉就是这个网站文章质量存在问题,然后我排除了其他原因后,在检查了日志等,就断定是因为这个文章质量的原因才造成的,在后期我就改善了文章质量,虽然每天还是一篇,但是这个网站在经过一个星期的调整后,收录慢慢恢复,并且在不断增加中。大家都知道采集,在3年前,采集文章不作任何更改,这样的文章搜索引擎也喜欢,在2年前,要适当伪原创一下,但是在现在一般的伪原创,搜索引擎都能识别出来。一些站点在刚开始的时候培养出了一定的权重,在后期就到处转载,这些转载的文章页是秒收,但是后期搜索引擎发现这些站点到处是些没用的东西,势必会给你的站点降权甚至直接K掉。这样的例子比比皆是,相信做站比较多的会遇到。
        2、网站被黑:做站长的最蛋疼的时间莫过于主机不稳定和网站被黑,而我做过的一些网站被黑的情况也非常多,而且有时候根本是无处可防,因为有的可能是通过服务器其他站点旁注的,遇见这样蛋疼的事情,只有通过FTP一个文件一个文件的查看修改时间来确定哪个文件被改了。而因为网站被黑导致收录减少的情况也时有发生,如果是直接改掉程序代码的话,搜索引擎只能认为你是一个新面孔了,只有重新对你考核,而如果是加上什么黑链的话,影响也不是非常大(我通过大量实验来看的,这里还是有必要说下,一些网上的理论文章只针对笔者的文章,而不适应其他网站,对于网站排名这个东西,是通过大部分的因素来的,看见一些人说网站被挂黑链,排名倒退什么的,我无语了)当然,还是有影响的,对于网站有坏处的,我们都要斩断,有好处的,都要去发挥!
        3、空间不稳定:在前面选择虚拟主机这篇文章中应该有说过,一个好的虚拟主机对于一个网站就是一个好的基础,而虚拟主机的不稳定,将直接导致这个网站的排名和收录等情况,蜘蛛爬虫程序到我们的网站来索引的时候就相当于一个普通的访客,如果蜘蛛来了网站也打不开,来几次都不能顺利打开,它就以为你网站关闭了,减少来你网站爬寻的频率,最终将导致网站的排名和收录持续下降。
        4、使用作弊手法:正正经经规规矩矩的做网站seo,咱们就不用怕搜索引擎K我们的站,这句话是我现在时常挂在嘴边的,就算之前SEO排名首页直接降权,我也只是想想就不过分气恼了,虽然我没使用作弊的手法,但是很多站点都是这个情况被降权,那我也就算了。很多人对于作弊都很喜欢,觉得网站排名节节攀升,收录狂飙,其实我想说的是不是你聪明而是你暂时没触发到搜索引擎的相关机制,不是不报,是时候未到,时候一到,你的站马上杀掉!而使用作弊手法能在短期内使收录大幅上升,而搜素引擎发现你使用了非常规手法后,会对你的文章进行重新审判,直到降低你的收录量来对您惩罚。
        5、网站改版:网站改版,路径更改,模板替换,主题变了等等都会造成收录减少,相信改版的童鞋都有这样的体会哈。
        二、外部原因:
        1、搜索引擎调整:武汉SEO博客认为每次百度更新,都有人发现外链增加、外链减少、收录增加、收录减少,比如11月12日写的百度收录增加,对于这样的情况,我不想过多写什么,站长们,别自己折腾自己,百度爱怎么折腾是他们的事情,我们只要我们的排名就行了!
        2、新站效应:网站收录比下降?很多新站做出来并且让搜索引擎找到后,搜索引擎一般都会收录,但是文章内容先不放出来,而在这个过程会考核一下,行的话,放出来了,但是紧接着文章收录数量可能会锐减,而且这样的情况现在是愈演愈烈,可能是搜索引擎对于您站点的一个警示吧,发生这样的情况,我们一般要提高网站权重,要慢慢培养,网站的排名非一朝一夕啊,培养了权重什么都好办。
        这篇seo文章主要是针对百度来说的,其实搜索引擎是算法大体都一样,但是很多细节又不一样,这个大家自己去发现!找到了原因,大家也就知道收录减少了我们该怎么应对,有矛必有盾,好好发挥你的盾吧!

      武汉SEO博客2017-11-20 08:36 回复
      • 收录急剧下降,是一个很不好的信号,网站有可能被搜索引擎惩罚了。

        小明seo2017-11-20 08:55 回复
  9. 经典的SEO博客

    肾精2017-11-16 11:50 回复
    •   云南小丹seo:收录与排名的微妙关系
        网站收录不断上升,但是排名却是没有变动甚至逆增长,这是何原因呢?取消百度快照后难道连坐了网站排名?
        近期内的网站优化工作一直处于瓶颈阶段,不论是正常的日常维护亦或是放任自流,索引数据翻倍增加,但是排名却比之前大幅度下跌。对这种情况,笔者小丹的第一反应就是域名被泛解析,增加了垃圾页面,影响了网站排名。
        在接下来的工作中,笔者小丹通过site命令来检测发现并没有想象中的被黑、被挂马的现象。在收录不断上升,而排名却反之下降的情况,通过对网站源代码的检测,发现网站并没有设立robot文件。现状囧况是在向我们传递着新算法的信息么?笔者小丹做了一个大胆的推测,网站收录于网站排名已经不存在所谓的正相关关系了。
        之后对比同期上线的网站却出现了两个截然不同的收录数据,排名位置却出奇的雷同。在以往的网站优化中,我们会每天更新信息内容,其中最主要的原因之一就是网站收录。在优化的过程中,SEOer会认为网站每次收录都是搜索引擎蜘蛛爬行网站后对于高质量页面的一种展示,亦可以看成是对网站数据的一次刷新。而对网站数据刷新带来的效果就是网站排名的重新洗牌,所以我们会在发布信息后来关注该内容是否被收录。
        但是就现在来看,网站内容在不停更新的同时,内容并没有被第一时间收录,相反的再检查是我们发现新收录的页面中,老页面的占据位置极为靠前,这是否也在向我们透露着一个信息:网站内容质量、主题方向发成了偏差,为了将其引向正轨,以老页面进行带动!?
        那我们回归今天的主题,网站收录与网站排名是否还存在正相关关系呢?
        首先可以证明的一点就是网站收录与网站排名排名肯定是有联系的。网站收录是网站排名的载体和展示,也只有保证高质量收录的同时,才能够有好的网站排名。
        然后我们再来研究他们的是否存在正相关关系。就这个问题上,笔者小丹不能够百分百确定,因为这个前提是被收录的页面要确保全是高质量页面。不过对于一般的企业站点而言,页面质量肯定是参差不齐的,就现在的情况而言,无法保证所抓取的页面质量程度,同时我们也无法判断搜索引擎对于页面抓取的质量度。
        来源:云南小丹seo

      云南小丹seo2017-11-17 07:56 回复
      • 收录了不一定有排名,没有排名就一定没有收录。因为搜索引擎的索引库是分级的。

        小明seo2017-11-17 08:20 回复
  10.   黑龙江seo教程:史上最全的网站收录影响因素
      网站的收录是由空间、网站、内容、抓取量、页面质量决定的。
      搜索引擎蜘蛛爬行的过程是这样的,首先检测网站的Robots.txt文件,确定哪些内容禁止抓取,哪些内容允许抓取等信息,确定robots.txt允许爬取之后,进入我们网站的首页,然后通过首页的链接爬取到我们网站中的内容页或者栏目页,之后再通过栏目页到达我们的文章页。
      既然已经知道了搜索引擎抓取我们网站的流程,那么我们接下来就要为您分析影响搜索引擎抓取的因素了,首先
      1、网站速度的影响
      机房问题、dns问题、cdn加速问题、服务器带宽、服务器硬件、操作系统、服务器软件以及服务器所安装的程序,这些都有可能影响我们网站的打开的速度。
      2、nofollow标签的合理使用
      nofollow是一个HTML标签的属性值。这个标签的意义是告诉搜索引擎”不要追踪此网页上的链接”或”不要追踪此特定链接。那么我们所要做的就是,用nofollow来屏蔽掉网站页面重复出现的链接以及对SEO没有很高价值的页面,以减少网站权重的分散,并且可以减少搜索引擎重复抓取网站内每个页面的重复链接,以提高搜索引擎抓取效率。
      3、网站硬盘问题
      如在服务器里面安装多个虚拟机,导致硬盘转速变慢,有时会导致搜索引擎打不开网站。
      4、返回码问题
      比如同一个链接返回不同的返回码,又或者404页面返回200等
      5、安全软件问题
      比如开启了防火墙规则、屏蔽了网站端口、开启防采集规则、开启防攻击规则等,导致了搜索引擎同一时间由于大量访问网站,而导致被安全软件拦截。
      6、外链问题
      我们发外链的目的有两个,一个是吸引搜索引擎来抓取我们网站(引蜘蛛)另外一个就是提升网站的排名。外链首先要保证不能单纯的指向首页,要把外链做到指向栏目页、文章页的都有一些。
      另外做外链的时候一定要考虑一下几个因素:多样性、集中性、平衡性、相关性、准确性、高质量性、人文性等。
      7、网站的权重
      网站权重是搜索引擎对这个网站信任度的一个体现,如果网站的权重够高,那么搜索引擎抓取的也相应的会比较及时,反之则是网站权重低,搜索引擎对其信任度不高,也许蜘蛛会很久来访问网站一次,相应的抓取频率就很低了。
      8、网站地图
      网站地图是将网站的所有连接,最直观的反应给搜索引擎,可以提高搜素引擎的抓取效率,同时也为增加网站的收录提供了良好的帮助。
      9、推广
      网站前期的推广也非常重要,前期推广包含QQ群推广、QQ空间推广、邮件推广、软文推广、论坛外链推广、平台信息推广。所有能引导来用户点击的推广都可以,当然一定要是良性的推广。因为有点击就会给予点击权重,而网页是具有一定权重以后才会被收录。
      10、PR
      pr值是谷歌使用的衡量网站质量的一套标准,但是pr对于百度seo来说作用是非常小的,只是能够给我们提供一个参考价值,但是相对的来说pr的价值并不是很大。
      11、url静态化
      URL静态化的目的是有利于网站的排名,虽然现在搜索引擎已经可以收录动态地址,但是在在排名上静态化的页面比动态页面更有优势, 并且URL静态化将更有利于增加搜索引擎的信任度。但是,如果网站真的做不了静态化的话,那就尽量使用短的url并且url中尽量少的使用动态参数。
      12、url的唯一性
      网站中的同一个页面,只对应一个url地址;如果网站上多种url都能访问到同样的内容的话,那么就会出现以下问题:
      a、搜索引擎会选一种url为标准,可能会和正版不同
      b、用户可能为同一网页的不同url做推荐,多种url形式分散了该网页的权重
      建议:
      a、如果你的网站上已经存在多种url形式,建议按以下方式来处理:在系统中只使用正常形式url,不让用户接触到非正常形式的url
      b、不把session id、统计代码等不必要的内容放在url中
      c、不同形式的url,301永久跳转到正常形式防止用户输错而启用的备用域名.301永久跳转到主域名
      d、使用robots.txt禁止百度蜘蛛抓取你不想向用户展示的形式
      13、ulr带关键词
      尽量在url中带上网站的关键词(拼音),这样会在排名上面稍微的会占据一点因素,要知道百度是中文搜索引擎,对拼音的分析能力是很强大的。
      14、代码因素
      网站的代码要符合w3c的标准,结构层、表现层、行为层标签都应该完整,建议使用开源程序。如:我的博客使用的wordpress程序。
      15、head信息的正确性
      网站的三大标签:标题标签(title)、关键词标签(keywords)、描述标签(description)
      16、内容的原创性
      前面有说到原创的内容一定会被收录,只不过是时间的问题而已,不论哪个搜素引擎,都是喜欢原创的内容,网站内容的原创性直接关系到搜索引擎对你网站的信任度,信任度又可以通过权重这个参考来反应出来,所以,网站内容的原创性是网站优化的重中之重。
      17、内容的重复度
      转载、或者是采集的文章,页面的文字、页面都和之前页面一样,具有非常高的重复度,那么百度就会计算你和其他网站内容的重复度,搜索引擎是一个喜新厌旧的家伙,如果每次你所发的内容重复度都很高的话,那么渐渐地蜘蛛就会失去对你网站的兴趣。
      18、网站的结构
      网站结构混乱,内链系统杂乱无章也会导致收录缓慢。比如不同栏目的内容互相做链接,而有的内容链接很多另一些内页链接很少。网站的层次也是一个原因,对于一般的企业站点三层已经足够放置所有的内容,而如果层次太深会影响内页的收录。
      总结:
      影响收录的因素大概有这么几个因素:站内站外、技术性因素、文章的因素,这些如果够做好的话,基本上来说,网站的收录就不是个事。
      来源:黑龙江seo教程

    黑龙江seo教程2017-11-14 22:41 回复
    • 影响收录的总的因素是内容质量,爬取规律和爬取入口三个方面。

      小明seo2017-11-14 23:01 回复