网站怎样做好seo才能被百度蜘蛛抓取原理

SEO网络优化中,百度蜘蛛的爬行规则图,它到处是怎样抓取网站的页面的?求SEO高手指点,要求有图,重谢_百度知道
SEO网络优化中,百度蜘蛛的爬行规则图,它到处是怎样抓取网站的页面的?求SEO高手指点,要求有图,重谢
提问者采纳
先检查根目录下的robots.txt文件,判断这个网站是否允许索引,如是,next;进入首页,从上而下,自左而右地检索首页的链接,如果有网站地图,会优先根据网站地图爬;沿着首页或地图进入内容页、目录页、tags页等;剩下就是在网站内的交叉链接之间爬,直到有导出链接,离开...当然,实际上并没有这么单向和简单,但是基本如此,蜘蛛也是模拟用户阅读习惯进行检索,所以做好用户体验对蜘蛛爬行和收录是很重要的
提问者评价
其他类似问题
为您推荐:
其他3条回答
这个不好说噢,现在很多网站说不收录,其实已经放到沙盒里面了,需要一个观察期,如果你还是稳定,开始收录你的春天就到了,希望能帮助你噢,一定要坚持更新,蜘蛛在观察你的稳定性呢
总共分为四步:1.折取(就是蜘蛛来抓取你的网页)。2.索引(就是搜索引擎会把相关的网页列举在一起)。3.排序(然后引擎经过筛选来进行排序)。展示(当用户搜索关键词时,搜索引擎就会像在数据库排序那样给你展示出来)。
是baiduspider,机器爬行
您可能关注的推广回答者:
百度蜘蛛的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁如何识别百度蜘蛛
百度spider对我们广大的站长来说可谓上宾,可是我们如何判断大量抓我们网站内容的蜘蛛是不是百度放出来的?(这是因为有很多垃圾站点靠采集别人网站的内容来发布到自己的网站上,如果不伪装成百度蜘蛛的话他们大量的抓取我们网站的内容是会被我们所在服务器所屏蔽的所以很多采集器伪装成百度蜘蛛)
判断是否是百度蜘蛛的方法,站长可以通过DNS反查IP的方式判断某只蜘蛛是否来自百度搜索引擎。根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:
1、在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *. 或 *.baidu.jp 的格式命名,非 *. 或 *.baidu.jp 即为冒充。
2、在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*. 或*.baidu.jp 的格式命名,非 *. 或 *.baidu.jp 即为冒充。
3、 在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *. 或*.baidu.jp 的格式命名,非 *. 或 *.baidu.jp 即为冒充。
Baiduspider IP是多少
即便很多站长知道了如何判断百度蜘蛛,仍然会不断地问“百度蜘蛛IP是多少”。我们理解站长的意思,是想将百度蜘蛛所在IP加入白名单,只准白名单下IP对网站进行抓取,避免被采集等行为。
但我们不建议站长这样做。虽然百度蜘蛛的确有一个IP池,真实IP在这个IP池内切换,但是我们无法保证这个IP池整体不会发生变化。所以,我们建议站长勤看日志,发现恶意蜘蛛后放入黑名单,以保证百度的正常抓取。
同时,我们再次强调,通过IP来分辨百度蜘蛛的属性是非常可笑的事情,所谓的“沙盒蜘蛛”“降权蜘蛛”等等是从来都不存在的。
雾水认为这里百度官方的资料已经很明确的告诉你们不存在什么沙和蜘蛛,降权蜘蛛的这些蜘蛛的存在,这些名词的出现是一些站长长期以来观察百度蜘蛛认为总结出来所谓的规律,其实雾水认为只要你的网站对用户是有价值的,是用户所喜欢的内容那么百度也会毫不犹豫的来抓取你网站的内容,然后提供给用户。
robots写法
robots是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
雾水在这里跟大家分享下自己的经验,请大家记住用好robots文件对网站优化来说利远远大于弊。robots.txt是通过代码控制搜索引擎蜘蛛索引的一个手段,以便减轻网站服务器的带宽使用率,从而让网站的空间更稳定,同时也可以提高网站其他页面的索引效率,提高网站收录。
robots文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:
“&field&:&optional space&&value&&optionalspace&”
这里是robots的语法格式,如果看的不是很懂的朋友可以多看看下面的案例,在试着给自己网站写一条robots协议。
在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下:
User-agent:该项的值用于描述搜索引擎robot的名字。在”robots.txt”文件中,如果有多条User-agent记录说明有多个robot会受到”robots.txt”的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在”robots.txt”文件中,”User-agent:*”这样的记录只能有一条。如果在”robots.txt”文件中,加入”User-agent:SomeBot”和若干Disallow、Allow行,那么名为”SomeBot”只受到”User-agent:SomeBot”后面的 Disallow和Allow行的限制。
Disallow:该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。例如”Disallow:/help”禁止robot访问/help.html、/helpabc.html、/help/index.html,而”Disallow:/help/”则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。”Disallow:”说明允许robot访问该网站的所有url,在”/robots.txt”文件中,至少要有一条Disallow记录。如果”/robots.txt”不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。
Allow:该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。例如”Allow:/hibaidu”允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。
使用”*”and”$”:Baiduspider支持使用通配符”*”和”$”来模糊匹配url。
“*” 匹配0或多个任意字符
“$” 匹配行结束符。
最后需要说明的是:百度会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。
雾水总结这上面是robots的语法协议,如果不是很懂的站长了解一下即可,但是你一定要知道是什么意思,因为很多时候我们只要记住几条协议就ok啦,所以这里不用太纠结,也不需要将上面的都记住只需要知道他是什么意思就好了。
robots需求用法对应表
上面的内容说了那么多理论知识,我们很多站长朋友只是需要一张有简单对照表格告诉我们,在什么样的需求场景下应该怎样撰写robots文件?
那么雾水SEO就在这里告诉大家这是有的:
看完以上的图片对照是不是头都大了啊各位,呵呵其实雾水这里想说我们只要记住其中几条主要的语句就能应对我们大部分的网站了。
User-agent:*
Disallow: /*?*
Disallow: /cgi-bin/
第一句是允许所有的搜索引擎蜘蛛访问;
第二句不允许蜘蛛抓取你网站的动态页面
第三局是不允许蜘蛛抓取你网站的那些特定的目录页面,这里举例来说,我们常用的dedecms我们是不是要禁止蜘蛛抓取我们的模板目录文件和管理目录的文件,这个是根据具体情况而定的。
除robots外其它禁止百度收录的方法
Meta robots标签是页面head部分标签的一种,也是一种用于禁止搜索引擎索引页面内容的指令。目前百度仅支持nofollow和noarchive
nofollow:禁止搜索引擎跟踪本页面上的链接
如果您不想搜索引擎追踪此网页上的链接,且不传递链接的权重,请将此元标记置入网页的&HEAD& 部分:&meta name=”robots” content=”nofollow”&
如果您不想百度追踪某一条特定链接,百度还支持更精确的控制,请将此标记直接写在某条链接上:&a href=”signin.php” rel=”nofollow”&signin&/a&
要允许其他搜索引擎跟踪,但仅防止百度跟踪您网页的链接,请将此元标记置入网页的&HEAD& 部分:&meta name=”Baiduspider” content=”nofollow”&
noarchive:禁止搜索引擎在搜索结果中显示网页快照
要防止所有搜索引擎显示您网站的快照,请将此元标记置入网页的&HEAD&部分:&meta name=”robots” content=”noarchive”&
要允许其他搜索引擎显示快照,但仅防止百度显示,请使用以下标记:&meta name=”Baiduspider” content=”noarchive”&
注:此标记只是禁止百度显示该网页的快照,百度会继续为网页建索引,并在搜索结果中显示网页摘要。
这里重点了解下nofollow的作用,他的作用是对于超链接的那个页面不传递权重,这个标签有什么作用呢?
其实作用很明显就是可以将我们的网页的权重集权,不要分散这个页面的权重。页面权重是干什么的有什么用作想必大家不会陌生吧好啦继续下面!
使用robots巧妙避免蜘蛛黑洞
对于百度搜索引擎来说,蜘蛛黑洞特指网站通过极低的成本制造出大量参数过多、内容类同但url不同的动态URL ,就像一个无限循环的“黑洞“,将spider困住。spider浪费了大量资源抓取的却是无效网页。
这里百度是不是告诉我们动态页面的危害了,如果你网站的页面相同但是页面后面的参数不同造成了同一个页面出现多个url对百度来说,百度蜘蛛依然会抓取的,这样百度一直在重复的抓取你网站的一个页面无法抓取其他的你想让蜘蛛抓取的页面,那么这样是不是一件很恐怖的事情,你的网站优质页面没有被收录,那么你还谈上面排名呢?
所以我们在robots的协议里面是不是一定要屏蔽我们网站所有的动态页面啊。
如很多网站都有筛选功能,通过筛选功能产生的网页经常会被搜索引擎大量抓取,而这其中很大一部分是检索价值低质的页面。如“500-1000之间价格的租房”,首先网站(包括现实中)上基本没有相关资源,其次站内用户和搜索引擎用户都没有这种检索习惯。这种网页被搜索引擎大量抓取,只能是占用网站宝贵的抓取配额,那么该如何避免这种情况呢?
我们以北京美团网为例,看看美团网是如何利用robots巧妙避免这种蜘蛛黑洞的:
对于普通的筛选结果页,使用了静态链接,如:
/category/zizhucan/weigongcun
同样是条件筛选结果页,当用户选择不同排序条件后,会生成带有不同参数的动态链接,而且即使是同一种排序条件(如:都是按销量降序排列),生成的参数也都是不同的。如:/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c
对于美团网来说,只让搜索引擎抓取筛选结果页就可以了,而各种带参数的结果排序页面则通过robots规则拒绝提供给搜索引擎。在robots.txt的文件用法中有这样一条规则:Disallow: /*?* ,即禁止搜索引擎访问网站中所有的动态页面。美团网恰是通过这种方式,对spider优先展示高质量页面、屏蔽了低质量页面,为spider提供了更友好的网站结构,避免了黑洞的形成。
这上面百度是不是给了我们一个很好的列子来证明我们网站屏蔽动态页面的重要性呢?
我们将我们网站上所有的动态页面屏蔽掉后,提高蜘蛛检索我们网站其他页面的效率提高我们网站的收录是不是对我们网站的排名是非常有帮助的。
我们只需要一条简单的屏蔽动态页面的robots名命令:
Disallow: /*?*
这样一句简单的robots命令就可以了,亲们一定要记住这个命令哦。
503状态码的使用场景及与404的区别
Html状态码也是网站与spider进行交流的渠道之一,会告诉spider网页目前的状态,spider再来决定下一步该怎么做——抓or不抓or下次再来看看。对于200状态码大家已经很熟了,那么我们来介绍几种常见的失效网页使用的状态码:
【404】404返回码的含义是“NOT FOUND”,百度会认为网页已经失效,那么通常会从搜索结果中删除,并且短期内spider再次发现这条url也不会抓取。
【503】503返回码的含义是“Service Unavailable”,百度会认为该网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503,百度spider不会把这条url直接删除,短期内会再访问。届时如果网页已恢复,则正常抓取;如果继续返回503,短期内还会反复访问几次。但是如果网页长期返回503,那么这个url仍会被百度认为是失效链接,从搜索结果中删除。
【301】301返回码的含义是“Moved Permanently”,百度会认为网页当前跳转至新url。当遇到站点迁移,域名更换、站点改版的情况时,推荐使用301返回码,尽量减少改版带来的流量损失。虽然百度spider现在对301跳转的响应周期较长,但我们还是推荐大家这么做。
一些网站把未建好的页面放到线上,并且这些页面在被百度抓取的时候返回码是404,于是页面被百度抓取后会被当成死链直接删除。但是这个页面在第二天或者过几天就会建好,并上线到网站内展现出来,但是由于之前已经被百度当做死链删除,所以要再次等这些链接被发现,然后抓取才能展现,这样的操作最终会导致一些页面在一段时间内不会在百度出现。比如某个大型门户网站爆出大量新闻时效性很强的专题未被百度及时收录的问题,经检查验证后发现就是因为页面未建成就放置在线上,并返回404状态码,被百度当成死链删除,造成收录和流量损失。
对于这样的问题,建议网站使用503返回码,这样百度的抓取器接到503返回码后,会在隔一段时间再去访问这个地址,在您的页面建好上线后,就又能被重新抓取,保证页面及时被抓取和索引,避免未建好的内容设为404后带来不必要的收录和流量损失。
其它建议和总结:
1、如果百度spider对您的站点抓取压力过大,请尽量不要使用404,同样建议返回503。这样百度spider会过段时间再来尝试抓取这个链接,如果那个时间站点空闲,那它就会被成功抓取了
2、如果站点临时关闭或者页面暂未建好上线,当网页不能打开时以及没有建好时,不要立即返回404,建议使用503状态。503可以告知百度spider该页面临时不可访问,请过段时间再重试。
这上面是不是告诉我们404状态码的意义,我们网站是不是要定期的检查我们网站是否有404页面,检查404页面有很多方法这里雾水就说简单的一种通过站长在线我们是不是可以检查我们网站的404页面,当然还有其他的工具。
那么当我们检查出我们网站的404页面后,我们应该及时向百度提交我们的404页面,这样等百度蜘蛛下次再来抓取我们的网站的时候,是不是就会直接忽略掉我们已有的那些404页面而提高索引呢。
这里还有个503代码,我们服务器如果总是出现503代码让百度蜘蛛吃闭门羹是不是会影响我们网站的收录呢。如果百度蜘蛛来你网站抓取你的页面你服务器总是返回503代码,那么久而久之百度蜘蛛还会再来吗?
所以我们需要一个稳定的服务器空间是多么的重要。
转载请注明: &
看过该文章的人还看过网站怎样做好seo才能被百度蜘蛛抓取_百度知道
网站怎样做好seo才能被百度蜘蛛抓取
提问者采纳
网站做好seo最基本的优化就可以被百度收录了,但是首要的条件是你的网站服务器必须要稳定,其次是你的内容要够丰富,可以被搜索引擎蜘蛛爬到才行。
其他类似问题
为您推荐:
百度蜘蛛的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁怎么优化才能让google最快抓取信息
我一个自己刚弄的网站,呵呵,只加了几个静态页面!怎么做才能让google早点访问我的网站?
09-11-27 & 发布
google是这样抓取信息的。伪原创:就是对原创进行的第二次或者第N次经过修改的转载发表。比如修改标题,增加摘要,转载不完整内容等等。  那么搜索引擎对于原创的判断是如何进行的呢?一般来讲有以下几个方面的因素决定:1、快照日期。2、蜘蛛抓取日期。3、页面外链的多少。4、文章修改的程度。搜索引擎蜘蛛来到这个博客或者网站,发现这个页面,分析内容,放入数据库,并且被确定为首次发现,这肯定就是原创了!那么这个收录与判断的过程中间有几个细节方面问题:        1、必要条件假如这个网站没有被收录,这篇文章会认为是原创吗?当然不是!因为它根本不可能出现在搜索数据库里!如何让它成为原创内容?第一个条件,网站必须被搜索引擎收录。假如这个网站收录了,但是不经常更新呢?很简单,如果不经常更新,发表的文章到收录的时候也会认为是原创的。        2、转载与采集如果文章被转载了呢?如果文章被转载,那么看转载这篇文章的站更新周期与首次发表站的更新周期哪个更快。不太明白更新周期。比如在A站发表,B站转载,如果蜘蛛先访问了A站,发现了文章,再来到B站发现了文章,很明显的,原创权重归A站。采集的情况是否符合这种情况?是的,采集的情况一样。如果B采集A,但B收录比A早,B就可能变成原创喽!        3、访问时间如果蜘蛛先访问了B站呢?当然权重给B站,一般的情况下都会这样!如果B站转载的文章带了A站的原文章页面链接呢?这就很明白了,刚收录的时候,如果排名,两条结果一起出现,有可能还是B站的排名好一点。当然,文章转载次数多了以后,A站的链接越多,对A站的文章越有好处,排名会慢慢变成A站在前面。如果另外转载的文章带的是B站页面的链接呢?这种情况就搞笑了,给搜索引擎开了个玩笑,但它们如果判断不好,就变成了一个链接流行度的比赛了。不过,如果都有很多外部链接,并且相差不大,那么判断的规则应该回到原点,谁先被收录谁就是原创。        4、快照日期网站快照日期显示时间最早的,一般就是原创了吧!不一定,这个说法要在一个更新周期之内,比如说文章发表后一周内,快照时间越早的地址将越有被认可为原创的可能。但如果文章都发表了几个月了,说不定搜索引擎已经重新获取过快照了,快照的日期就变了!但是还有其它的可能吗?答案是:有,一般比如百度收录网站,他可能会有一个收录的数据库,经过过滤后,收录的内容才会到搜索结果里来。在这个期间就有一些问题了,比如A站首次发表,B站转载。蜘蛛先访问A站再访问B站。而后可能先把B站的结果放出来了,而A站还在数据库里。  所以说搜索引擎没有收录并不表示搜索引擎蜘蛛没有访问过这些内容,也许在搜索引擎的库存里已经有记录了,只是你查的时间没有放出来而已,就像25号才放出来的内容,但是快照是20号的,这就是搜索引擎的库存内容,同时这也是检验原创的核心时间点。这种情况一般出现在新站与老站之间,A站发表,B站转载,但A站在搜索引擎的信任度并不高的时候。不过只要是A站先被访问到的,原创权还是A站的,这是最难分出来的情况,因为我们不知道蜘蛛先访问哪个站,除非你知道两个站的网站空间日志内容,能看到搜索引擎对两个页面的访问时间。        5、伪原创伪原创也会被认为是原创?真的是这样吗?大多时候是这样的,搜索引擎蜘蛛智力相当于三岁小孩子一样,不能明确分别这些东西,因为它的思维太程式化了。如果你的标题改过,文章的段落改过,那么蜘蛛将很难确定这篇文章是否有过收录,也许它可以确定有部分内容是重复的,但它也不能因为这些而将这篇文章确认为是转载!当然,随着搜索引擎程式设计的提高,应该会有一个相似度的东西出来,比如文字内容相似度超过百分之几就会被认为是转载。这样分析下来,相信大家应该了解了吧。这只是创业中国自己的看法,希望大家吸收自己想要的东西,不认同的也来提下自己的意见!意愿交朋友的加我Q
请登录后再发表评论!
我记得地图引用百度搜索结果好像都得国家审图号,这种连你自己都有疑问的你最好别去做,做大了肯定会有一系列问题的腾讯soso用的google搜索,难道直接引用了吗具体还是多多考察些,百度知道问这个问题效果不大
请登录后再发表评论!
网站优化包括三个层面的含义:对用户优化、对网络环境(搜索引擎等)优化,以及对网站运营维护的优化。 ??网站设计对用户优化的具体表现是:以用户需求为导向,设计方便的网站导航,网页下载速度尽可能快,网页布局合理并且适合保存、打印、转发,网站信息丰富、有效,有助于用户产生信任; ??网站设计对网络环境优化的表现形式是:适合搜索引擎检索(搜索引擎优化),便于积累网络营销网站资源(如互换链接、互换广告等); ??网站设计对运营维护优化的含义是:充分体现网站的网络营销功能,使得各种网络营销方法可以发挥最大效果,网站便于日常信息更新、维护、改版升级,便于获得和管理注册用户资源等。 ??从上述对网站优化设计含义的理解也可以看出,网站优化设计并非只是搜索引擎优化,搜索引擎优化只是网站优化设计中的一部分,不过这部分内容对于网站推广的影响非常明显和直接,因此更容易引起重视。同时,我们也可以看出,在有关网站设计的对网站推广优化的内容中,这里并没有特别强调搜索引擎优化的作用,因为真正的网站设计优化不仅仅是搜索引擎优化,应坚持用户导向而不是搜索引擎导向。 ??值得引起注意的一个问题是,网上有许多关于传统 搜索引擎登录 和优化方面的文章,这些内容有些已经过时但仍在网上流传,有些则是服务商为自己的服务做宣传,因此这些文章的传播对于网站设计优化很容易让人造成误解,如将网站优化简单地等同于搜索引擎优化,而针对搜索引擎优化仅仅强调网页META标签的设计等。
请登录后再发表评论!
google优化的秘密--如何通过seo获得高网站排名现今社会,每个人都知道一个网站在搜索引擎排名的重要性。如果 的网站不在前二十名,是不会有什么访问流量的。大部分的网民在看了首页的10个结果后,就会离开,不会再望下看。因此,在主要搜索引擎排名到首页的前十名位置是非常重要的。而google目前应该是全球最为重要的搜索引擎。排名到google的前十名,可能会比其他所有搜索引擎加起来合计带给 的流量还要多。但是 知道google排名的规则吗? 知道怎么样是最佳的seo做法吗? 知道优化到google首页的关键因素是什么吗?目前还没有具体的教科书系统地教大家如何进行google优化,而这里介绍的《google优化的秘密》会全面地指导 如何进行seo,不管 是新手还是专家,这本书都将给 带来一些帮助。为什么特别强调google优化的重要性?现在全球的搜索引擎至少有上百个,难道它们不需要 考虑优化吗?尽管有那么多搜索引擎,然而google在目前是最流行,最经常使用,而是最为重要的搜索。而且google目前有很多联盟网站, 在google的网站排名也将在其他网站上体现出来。另外,yahoo和msn也是两个重要的搜索引擎,它们的排名规则有些类似,如果 理解了google的排名规则和优化,对yahoo和msn优化也会有很大的帮助。一、google是怎么工作的?google和其他搜索引擎类似,它利用自动的软件进行读取,分析,比较和排名 的网站。因此 需要理解是哪些因素影响google对 网站的排名,它们之间又是如何相互联系的。有个很重要的概念:google的系统只关注代码和文本,这意味着google并不关注 网站中的布局、颜色、动画、flash、图片等。搜索引擎排名指的是用户在发出搜索指令的时候, 的网站在搜索结果页的排名。google会把最为相关和重要的网页排在前面。对于google来说,相关性指的是 的网页在多大程度上符合用户所搜索的关键词,而重要性则是google判断别的网站对 网站链接的数量和质量。链接的质量是 将不断讨论的重要概念。 来看看一份研究对于关键词排名和点击率之间的关系。第一位:30%;第二位:15%;第三位:7%;第四位:5%;第五位:4%;第六位:4%;第七位:2%;第八位:2%;第九位:3%;第十位:5%;第二页的前三位分别是6%、4%和2%,而后面的位置不到1%。 可以看出,如果 不在前两页,几乎没有什么人会访问 的网站。google什么时间来访问 的网站?google会通过蜘蛛程序爬行 的网站,然后收录到它的收据库和目录中。它会爬行 的所有页面,基本上从首页开始,然后到内部链接的其他页面。记住,google一般不会收录一个外部链接都没有的网站,所有 应该先增加一点外部链接,然后将 的网站提交到google。 的网站越流量,google就会经常爬行 的网站。 的网站排名越高或更新速度非常快,google就会每天都爬行 的网站。对于一个新网站,越早上线越好,甚至在 还没有做好整个网站之前就上线。这样以后 不停把网站完成的过程就是更新内容的过程。google喜欢经常更新内容的网站。这个策略是和“google沙盒”有关。如果 的新网站在yahoo, msn和其它搜索引擎上有不错的排名,但却在google表现不佳,这是有可能 的网站被google请进了它的sandbox(沙盒)。 一旦 拥有了新域名,先创建一个临时页面,并在其他被收录网站上对它做一个链接,让google索引到这个页面。因为6-8个月的时间应该是从google第一次抓取到它开始计算,因此,google对它知道越早, 的网站走出沙盒的时间就越快。等到内容完全做好,正式发布的时候, 已经快要走出sandbox了。google用100多中因素来考虑和计算 的网站排名,而这些因素的重要性又会经常变化。因此 的网站排名会经常有所变化,这就表明seo是个长期的工作,而不是一次性完成的。网站内部关键词是决定网站相关性的重要因素,而网站的外部链接是决定网站重要性的重要因素。 看看主要google关注的标准:1、内外部链接的关键词。2、 网站标题中的关键词:在中的关键词。3、网站头部以及主体中的关键词:(h1,h2,body)。4、网站的pr,这又取决于 网站的外部链接数。5、相关文本内容中超过200个单字的页面数。6、网站更新的速度。如果可能, 至少要一个月更新一次网站。7、 获取新外部链接的速度,注意太快也不是好事情。8、网站上线的时间长短,网站的外部链接时间长短。 的网站上线时间越久, 的外部链接时间越久,排名就会越好。待续。上海惊雷网络技术有限公司 老毛编译。
请登录后再发表评论!}

我要回帖

更多关于 百度蜘蛛 抓取500错误 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信