平常,我们可以通过百度搜索到我们想要看到的内容,而这些内容是哪里来的呢?实际上是因为百度把别人网站上的这些页面收录到百度的索引数据库里,根据用户的搜索请求,通过应用相关规则和程序分析,将最符合用户搜索请求的结果展示给用户。那么,百度是如何收录网页的呢?一个网站做好并上线投入运营到百度收录网站需要一个过程,而这个过程就是我们所要探讨的问题。
每一个新网站上线,都不会立即引起搜索引擎的注意,搜索引擎不知道你的网站是否真的上线投入运营了。但是,百度会定期尝试访问已被注册的域名,看看通过这个域名是否可以打开网站。当然,你也可以把网站主动提交到搜索引擎,这就相当于告诉搜索引擎:“我的网站上线了,快来收录吧”。也可以通过在其它网站上增加一些外部链接,从而引导搜索引擎前来抓取。一旦搜索引擎前来访问,并且发现网站是可以打开的,这时,有一个叫“百度蜘蛛”的东西就会来到网站并在网站里到处爬行。注意了,这不是动物,它是一个用户检索网站里各个网页的程序,由于它能在网站里到处检索,所以,我们才称它为“蜘蛛”。
百度蜘蛛来到网站后,它会爬行网站里的还没有被收录的页面,当然,也会定期爬行已被收录的页面。由于百度蜘蛛会根据网站的目标一层一层进行爬行,这就引出另一个问题。什么样的网站才更适合搜索引擎爬行呢?首先,你的网站主要链接绝对不能做在FLASH里,因为蜘蛛不认识FLASH。比如很多网站为了给用户更好的视觉效果,把主菜单做成FLASH动画,那样就基本阻断了百度蜘蛛的爬行,从而导致网站不被收录。另外,网站目录不能超过3级,换个思路讲就是站在网站浏览者的角度,网站人任何页面从打开首页到找到这个页面不能超过3次点击。太深的网站目标结构会导致百度蜘蛛疲劳,从而大大降低抓取效率。如果排版允许的话,最好做上包屑导航,以更好的引导百度蜘蛛进行爬行。百度蜘蛛在爬行过程中所发现的网页都会抓取到百度的数据库里,但并不意味着所有网页都会建立搜引并出现在用户的搜索结果中,还需要面临一个审核的过程。这个审核的过程是机器智能自动操作的,而审核的目的则是检查这个网页是否有价值是否值得向用户展示。符合条件的网页将被建立索引,并在用户搜索与该网站相关的关键词时有可能展示给用户。对于一些低劣的网页(比如过度优化、抄袭、非法),百度则会忽略。其实很多朋友都在抱怨,我的网站里明明有1000个网页,为什么只收录200个?显然,这是因为大量网页不符合百度的收录标准导致的。
我们建议您好好组织网站内容,做好网站的内容建设,并且上传一些原创的、有价值的、带有新观点的文章,这样的网页必定会获得搜索引擎的重视。你能向百度提供优质内容,作为回报,百度也会给你应得的流量。