千万个美丽的未来,抵不上一个温暖的现在,每一个真实的现在,都是我们曾经幻想的未来!
Oct
22
翻译:海淼(出自国外某知名SEO网站)
下面介绍的都是正常优化,需要的仅仅是一些时间和工作。还犹豫什么,行动吧:
1、域名和文件名
选择一个包含你主要关键词的域名和文件名,你的域名应该方便拼写和记忆,你的关键词在许多情况下,就该是你的文件名。如果你的关键词是google排名,最好你的域名中带有google,最好的方法是google.com大于xxgoogle.com大于google.xxx.com大于xxx.com/google,同时,文件名最好是google.htm,比如个人兴趣所致,随意而做的一个网页,google排名, http://www.earth365.com/google/google.htm
2、关键词短语
a.使用一个容易被搜索到的关键词,不一定非要是热门关键词.你可以在google中查询一个,看查询结查中有多少页包含这个关键词,你就知道这个关键词的效果.
b.在文本中添加与关键词相近的关键词短语.比如:google排名,可以加一些google左侧排名,google排名优化.
c.在title中放置关键词(这是非常重要的)<title>关键词</title>
d.在页面开始处放置一个<h1>关键词</h1>.关键词相近的短语可以放在<h2><h3>中.<h1><h2><h3>中所用的主要关键词在title中最好都有.如果你有很多关键词需要优化,建议你分成多个页面优化.如果你的关键词比较热门,建议一个页面最多优化三个主要关键词.
e.确信你链接所使用的文本是你链接所指向页面的主要关键词,在网站地图中,建议也使用这个文本做为链接.比如我在个人网站地球村中有一个链接,指向页面的主要关键词是"地球"这个关键词,我会用<a href="http://www.earth365.com";>地球</a>. 注意,指向页面的主要关键词是"地球",所以建议最好链接文本使用"地球",这一些在做反向链接的时候最重要的.
3、关键词密度
对于网络优化来说,关键词密度是非常重要的.关键词密度指的是你的"关键词"的数量在你文本中所占的比率.你可以分析一下你的竞争对手使用关键词的密度.一个高的关键词密度会被搜索引擎认为做弊,而列入到黑名单并除名.一般认为4%左右最合适.
你的关键词在网页中位置越前越好,至于要不要在每一段中都有你的关键词,取决于你网页文本的长度.(有个别网站,在<html>代码前加一些关键词,这种方法对于搜索引擎来说,是没有用的).
4、坏的技巧
坏的技巧会被搜索引擎列入黑名单,被除名.许多技巧会被认为是做弊,比如:cloaking,隐形文字,小得看不见的文字,完全一样的页面,门页,刷新标签(这种情况发生在针对搜索引擎做好页面排名,然后跳转,时间设的太短),链接工厂,只用关键词填充注释,高密度的关键词,镜射页面,镜射站点.注意,作者标签中也用关键词,也可能被认为是做弊,以及网页中所有图象均用同样的关键词做alt.
当你用这些技巧的时候,有可能在短时间内得到高的排名,但是不久,你的站点将会会到惩罚.
5、标题和说明标签
title是优化关键词最重要的一部分,每一个页面应该有2-3个不同的主要关键词,这几个关键词最好在该网页中位置越前越好,一般建议title不超过75个字符.
下面是一个简短的description说明:
content="说明短语",你的说明应该至少有2-3个你的关键词,你的第一句话也应该有你的关键词.每一个页面中,"titlte","description","keyword"说明应该是不一样的.你可以使用一个关键词,也可以使用关键词短语作为标题提高关键词的相关性.
description 最好把主要关键词写成句子,比如地球村: http://www.earth365.com 我是这样写的:<meta name="description" content="地球村,主要介绍地球,地球地理,地球图片,地球环保,地球科学.地球村,一个网上的地球家园,地球之谜,治理沙漠,中国文化.地球村,一片宁静的地球乐土,为您提供地球的一些知识,地球环保,地球文化.欢迎来地球村坐客.">
提醒:你可以在文本最后加上你的域名,有一定好处. 比如个人网站,爱护地球: http://www.earth365.com/earth365/kio06/index.htm 在最后面,我就有加:Copyright 2003-2005 www.earth365.com All Rights Reserved, 把域名加在了最后面.
6、关键词标签
如今,关键词标签由于很容易被人做弊,已经被google基本上忽视,但是在yahoo,以及其他一些搜索引擎中还是偶尔用到.每个页面建议用不同的keyword,也不要累加关键词.
7、作者以及Robots标签
作者标签应该不是你的关键词,而是你的公司名,这样用助于你的公司排名排在第一的位置.
<META content="你的公司名" name=Author>
<META content="Copyright 2004-2005 XXX所有" name=Copyright>
Robots标签主要说明哪些页面你希望搜索引擎检索,哪些不希望被检索,如果都希望被检索,可以不用Robots标签,或者用:
<meta name="robots" content="index,follow"/>
8、有质量的内容
一个好的内容的网站是至关重要的,他可以吸引人们下次还来访问,并告诉其他人来访问,并会为你带来相当多的反向链接.你的内容一定首先要有你的关键词.
9、内容的数量
内容丰富一点当然是最好.一定记注,内容和质量是网站生存的基础.
10、动态改变的内容
如果有一个页面有动态需要改变的内容,可以使用script,.你可以用几个段落写几段script.在htm网页中,用script作一些改动.
11、避免使用动态域名
你的页面是通过PHP,ASP或者cf? 有些搜索引擎检索他们的时候会有问题.尽可能地使用静态页面.避免使用php,asp 或者 cf页中"?",
动态网页是非常实用的,但是他们有一个数据库驱动,确信你的导航和网站地图链向earth365.com 而不是 earth365.com?vn=0
12、框架
许多搜索引擎不能检索框架中的链接,最好不要用框架.如果一定要用,建议使用交替的办法使搜索引擎能检索到你的页面.
13、网站地图
一个最好的导航其实是你的网站地图.一个好的网站导航结构是你站内所有页面都有一个链接指向你站内最重要的页面.比如,你的首页.
同时,如果你的网站很大,网站地图每页应该链接数量不超过100个链接,分成多个页面来做.
14、网站主题
当一个搜索引擎检索一个网站时,他会检索这个网站的主题和普通的标题,确定网站的主要主题.如果你的网站有一个特定的主题,你将比那些网站中只有几个标题和内容提及这个主题的关键词到得更好的排名.使用相似的关键词使用在每个不同的页面,搜索引擎将会检测到你的网站主题,这样你会有更大的优势.比如,我的网站 http://www.earth365.com 主题是"地球",在很多页面,我都用到了地球相关的关键词,比如"地球村","地球环保","地球奇迹"等等,这样提升了网站主题"地球"的优势.
15、网站设计
记注一点,我们的网站是做给用户看的,而不是做给搜索引擎看的.如果你的网站有一个坏的配色,或者没有组织好,不方便阅读,那么你的所有优化工作都只是在浪费时间.
确定你的网站设计方便用户使用,确定用户在你的网站内能很快找到他想要找到的东西.
16、分离内容和css样式
把你的所有格式放在css样式中,搜索引擎会更倾向于这种格式,这种方式还可以使你的网页文件大小减少,文本内容更多,会有很多好处。
下面介绍的都是正常优化,需要的仅仅是一些时间和工作。还犹豫什么,行动吧:
1、域名和文件名
选择一个包含你主要关键词的域名和文件名,你的域名应该方便拼写和记忆,你的关键词在许多情况下,就该是你的文件名。如果你的关键词是google排名,最好你的域名中带有google,最好的方法是google.com大于xxgoogle.com大于google.xxx.com大于xxx.com/google,同时,文件名最好是google.htm,比如个人兴趣所致,随意而做的一个网页,google排名, http://www.earth365.com/google/google.htm
2、关键词短语
a.使用一个容易被搜索到的关键词,不一定非要是热门关键词.你可以在google中查询一个,看查询结查中有多少页包含这个关键词,你就知道这个关键词的效果.
b.在文本中添加与关键词相近的关键词短语.比如:google排名,可以加一些google左侧排名,google排名优化.
c.在title中放置关键词(这是非常重要的)<title>关键词</title>
d.在页面开始处放置一个<h1>关键词</h1>.关键词相近的短语可以放在<h2><h3>中.<h1><h2><h3>中所用的主要关键词在title中最好都有.如果你有很多关键词需要优化,建议你分成多个页面优化.如果你的关键词比较热门,建议一个页面最多优化三个主要关键词.
e.确信你链接所使用的文本是你链接所指向页面的主要关键词,在网站地图中,建议也使用这个文本做为链接.比如我在个人网站地球村中有一个链接,指向页面的主要关键词是"地球"这个关键词,我会用<a href="http://www.earth365.com";>地球</a>. 注意,指向页面的主要关键词是"地球",所以建议最好链接文本使用"地球",这一些在做反向链接的时候最重要的.
3、关键词密度
对于网络优化来说,关键词密度是非常重要的.关键词密度指的是你的"关键词"的数量在你文本中所占的比率.你可以分析一下你的竞争对手使用关键词的密度.一个高的关键词密度会被搜索引擎认为做弊,而列入到黑名单并除名.一般认为4%左右最合适.
你的关键词在网页中位置越前越好,至于要不要在每一段中都有你的关键词,取决于你网页文本的长度.(有个别网站,在<html>代码前加一些关键词,这种方法对于搜索引擎来说,是没有用的).
4、坏的技巧
坏的技巧会被搜索引擎列入黑名单,被除名.许多技巧会被认为是做弊,比如:cloaking,隐形文字,小得看不见的文字,完全一样的页面,门页,刷新标签(这种情况发生在针对搜索引擎做好页面排名,然后跳转,时间设的太短),链接工厂,只用关键词填充注释,高密度的关键词,镜射页面,镜射站点.注意,作者标签中也用关键词,也可能被认为是做弊,以及网页中所有图象均用同样的关键词做alt.
当你用这些技巧的时候,有可能在短时间内得到高的排名,但是不久,你的站点将会会到惩罚.
5、标题和说明标签
title是优化关键词最重要的一部分,每一个页面应该有2-3个不同的主要关键词,这几个关键词最好在该网页中位置越前越好,一般建议title不超过75个字符.
下面是一个简短的description说明:
content="说明短语",你的说明应该至少有2-3个你的关键词,你的第一句话也应该有你的关键词.每一个页面中,"titlte","description","keyword"说明应该是不一样的.你可以使用一个关键词,也可以使用关键词短语作为标题提高关键词的相关性.
description 最好把主要关键词写成句子,比如地球村: http://www.earth365.com 我是这样写的:<meta name="description" content="地球村,主要介绍地球,地球地理,地球图片,地球环保,地球科学.地球村,一个网上的地球家园,地球之谜,治理沙漠,中国文化.地球村,一片宁静的地球乐土,为您提供地球的一些知识,地球环保,地球文化.欢迎来地球村坐客.">
提醒:你可以在文本最后加上你的域名,有一定好处. 比如个人网站,爱护地球: http://www.earth365.com/earth365/kio06/index.htm 在最后面,我就有加:Copyright 2003-2005 www.earth365.com All Rights Reserved, 把域名加在了最后面.
6、关键词标签
如今,关键词标签由于很容易被人做弊,已经被google基本上忽视,但是在yahoo,以及其他一些搜索引擎中还是偶尔用到.每个页面建议用不同的keyword,也不要累加关键词.
7、作者以及Robots标签
作者标签应该不是你的关键词,而是你的公司名,这样用助于你的公司排名排在第一的位置.
<META content="你的公司名" name=Author>
<META content="Copyright 2004-2005 XXX所有" name=Copyright>
Robots标签主要说明哪些页面你希望搜索引擎检索,哪些不希望被检索,如果都希望被检索,可以不用Robots标签,或者用:
<meta name="robots" content="index,follow"/>
8、有质量的内容
一个好的内容的网站是至关重要的,他可以吸引人们下次还来访问,并告诉其他人来访问,并会为你带来相当多的反向链接.你的内容一定首先要有你的关键词.
9、内容的数量
内容丰富一点当然是最好.一定记注,内容和质量是网站生存的基础.
10、动态改变的内容
如果有一个页面有动态需要改变的内容,可以使用script,.你可以用几个段落写几段script.在htm网页中,用script作一些改动.
11、避免使用动态域名
你的页面是通过PHP,ASP或者cf? 有些搜索引擎检索他们的时候会有问题.尽可能地使用静态页面.避免使用php,asp 或者 cf页中"?",
动态网页是非常实用的,但是他们有一个数据库驱动,确信你的导航和网站地图链向earth365.com 而不是 earth365.com?vn=0
12、框架
许多搜索引擎不能检索框架中的链接,最好不要用框架.如果一定要用,建议使用交替的办法使搜索引擎能检索到你的页面.
13、网站地图
一个最好的导航其实是你的网站地图.一个好的网站导航结构是你站内所有页面都有一个链接指向你站内最重要的页面.比如,你的首页.
同时,如果你的网站很大,网站地图每页应该链接数量不超过100个链接,分成多个页面来做.
14、网站主题
当一个搜索引擎检索一个网站时,他会检索这个网站的主题和普通的标题,确定网站的主要主题.如果你的网站有一个特定的主题,你将比那些网站中只有几个标题和内容提及这个主题的关键词到得更好的排名.使用相似的关键词使用在每个不同的页面,搜索引擎将会检测到你的网站主题,这样你会有更大的优势.比如,我的网站 http://www.earth365.com 主题是"地球",在很多页面,我都用到了地球相关的关键词,比如"地球村","地球环保","地球奇迹"等等,这样提升了网站主题"地球"的优势.
15、网站设计
记注一点,我们的网站是做给用户看的,而不是做给搜索引擎看的.如果你的网站有一个坏的配色,或者没有组织好,不方便阅读,那么你的所有优化工作都只是在浪费时间.
确定你的网站设计方便用户使用,确定用户在你的网站内能很快找到他想要找到的东西.
16、分离内容和css样式
把你的所有格式放在css样式中,搜索引擎会更倾向于这种格式,这种方式还可以使你的网页文件大小减少,文本内容更多,会有很多好处。
Oct
22
在忙活了一段时间后,网站建成了,接下来作为一个新站站长的你首先想到要做的可能就是让自己的网站早点被搜索引擎收录,早点让访问者通过搜索引擎找到自己的网站,获得一些流量。实际上这也不是什么很困难的事。如果方法对头的话,一般2-4天就可被Google收录。但方法不当的话,十天半月,甚至一两个月也列不上。
一般的方法,大家首先想到的可能是登陆各大搜索引擎,一个个向搜索引擎提交自己的网站URL。这种方法已经过时了,现在已是最被动,最没效的方法。 GoogleGuy也曾说过,向Google提交URL的重要性在降低,这种提交的吸引力对于Google越来越小。对于这部分提交Google的数据更新非常之慢。如果你只使用这种方法可能两个月也列不到Google上。
还有就是向一些公开目录提交,比如 DMOZ.org等。对于一个新的网站,内容还不多,想列入这些大型目录会是相当一个漫长的过程,可能需要很长时间。因此想通过这个被 Google等搜索引擎快速找到,也是不可取的。当然你提交一下,等着慢慢被收录也是可以的。
下面就要说的是最快的最好的方法,那就是获得尽可能多的外部链接。这些链接不一定在链接网站的首页,在其内页就OK。事实上,你的网站刚建成,还没有什么访问量,想找一些好的首页链接也是不太容易的。最好找一些PR值高一点(比如6以上),内容天天更新而且更新较多的网站,这些网站Google会每天漫游并更新其数据库。当Google漫游这些站点时发现了你的URL,就会顺着URL Crawl你的网站。笔者以前曾多次使用这种方法,非常有效,当然现在不用了,直接在一个稍高PR的网站首页做个链接就OK。
通常使用何种方法2-4天就会被Google和MSN列入。Yahoo稍慢一点,可能需要1-2周,这和其搜索技术有关系。怎么才能在一些PR高,更新快的网站做一些链接呢?其实很简单,很多网站都有论坛或允许评论,做个签名带上自己的网站地址,发几个帖子或评论就行了。但这种URL一定要是活动的,就是点击可以到达你得网站的。根据笔者的经验,Google在发现你的URL之后,当天就会对你的网站漫游,漫游后一到两天,在Google搜索你的网址,就会发现你的网站已被列入了。首次列入的将只是你的首页,这一点Google和MSN一样。
接下来再谈谈前面提过的获得尽量多的链接的原因。如果你只有一个链接,几天内被Google列入是没问题,但首次只是首页,要等到Google收录更多的页面还需要一定时间,可能1-3周。这是因为Google对一个新站的漫游周期会比较长。如果你有较多的链接在外面,当Google漫游那些网站时,发现你的网址就会再次过来Crawl你的网站,越多Google Crawl的越频繁,这时就会深度漫游你的网站,收录更多的页面。这就会大大缩短Google的收录时间,使Google在较短的时间内收录更多的页面。
在对一个新的网站进行收录时,笔者的经验是,Google反应最快,收录最快,MSN 次之,Yahoo最慢。Google几天内列入后,如果链接多的话,过不了几天就会再次收录,在加上你的网站天天更新,内容更新平凡,内部URL结构合理,要不了一个月,就会深度漫游,全部收录你的网页。MSN的列入速度和Google差不多,也是很快的。但一般只是收录首页,到再次收录更多页面时,可能需要2周-3周左右。这期间你到MSN查看你得网站的话,会看到总是一个首页在那里。1-2个月后,MSN对你的网站就可完全收录了。Yahoo的反映是最慢,无论收录首页还是深度Crawl都是最慢的,首次需要1-2周,到完全收录可能需要2-3月。
最后,抛弃那些主动向搜索引擎提交链接的被动办法把,多做一些高质量的外部链接,你会有意想不到的收获。
一般的方法,大家首先想到的可能是登陆各大搜索引擎,一个个向搜索引擎提交自己的网站URL。这种方法已经过时了,现在已是最被动,最没效的方法。 GoogleGuy也曾说过,向Google提交URL的重要性在降低,这种提交的吸引力对于Google越来越小。对于这部分提交Google的数据更新非常之慢。如果你只使用这种方法可能两个月也列不到Google上。
还有就是向一些公开目录提交,比如 DMOZ.org等。对于一个新的网站,内容还不多,想列入这些大型目录会是相当一个漫长的过程,可能需要很长时间。因此想通过这个被 Google等搜索引擎快速找到,也是不可取的。当然你提交一下,等着慢慢被收录也是可以的。
下面就要说的是最快的最好的方法,那就是获得尽可能多的外部链接。这些链接不一定在链接网站的首页,在其内页就OK。事实上,你的网站刚建成,还没有什么访问量,想找一些好的首页链接也是不太容易的。最好找一些PR值高一点(比如6以上),内容天天更新而且更新较多的网站,这些网站Google会每天漫游并更新其数据库。当Google漫游这些站点时发现了你的URL,就会顺着URL Crawl你的网站。笔者以前曾多次使用这种方法,非常有效,当然现在不用了,直接在一个稍高PR的网站首页做个链接就OK。
通常使用何种方法2-4天就会被Google和MSN列入。Yahoo稍慢一点,可能需要1-2周,这和其搜索技术有关系。怎么才能在一些PR高,更新快的网站做一些链接呢?其实很简单,很多网站都有论坛或允许评论,做个签名带上自己的网站地址,发几个帖子或评论就行了。但这种URL一定要是活动的,就是点击可以到达你得网站的。根据笔者的经验,Google在发现你的URL之后,当天就会对你的网站漫游,漫游后一到两天,在Google搜索你的网址,就会发现你的网站已被列入了。首次列入的将只是你的首页,这一点Google和MSN一样。
接下来再谈谈前面提过的获得尽量多的链接的原因。如果你只有一个链接,几天内被Google列入是没问题,但首次只是首页,要等到Google收录更多的页面还需要一定时间,可能1-3周。这是因为Google对一个新站的漫游周期会比较长。如果你有较多的链接在外面,当Google漫游那些网站时,发现你的网址就会再次过来Crawl你的网站,越多Google Crawl的越频繁,这时就会深度漫游你的网站,收录更多的页面。这就会大大缩短Google的收录时间,使Google在较短的时间内收录更多的页面。
在对一个新的网站进行收录时,笔者的经验是,Google反应最快,收录最快,MSN 次之,Yahoo最慢。Google几天内列入后,如果链接多的话,过不了几天就会再次收录,在加上你的网站天天更新,内容更新平凡,内部URL结构合理,要不了一个月,就会深度漫游,全部收录你的网页。MSN的列入速度和Google差不多,也是很快的。但一般只是收录首页,到再次收录更多页面时,可能需要2周-3周左右。这期间你到MSN查看你得网站的话,会看到总是一个首页在那里。1-2个月后,MSN对你的网站就可完全收录了。Yahoo的反映是最慢,无论收录首页还是深度Crawl都是最慢的,首次需要1-2周,到完全收录可能需要2-3月。
最后,抛弃那些主动向搜索引擎提交链接的被动办法把,多做一些高质量的外部链接,你会有意想不到的收获。
Oct
22
随着“眼球经济”席卷互联网,成千上万的资金迅速流向最能吸引浏览着眼球的搜索引擎市场。有大量调查显示搜索引擎市场正处在高速发展时期,成为了未来几年内最具发展潜力的产业之一。随着Google、百度、中国搜索等各具特色的搜索引擎逐渐成为人们最常用的网络工具,企业对搜索引擎的注意力也从“观察”升级为“动武”。
随着市场容量和使用者人数的不断激增,如何完善搜索功能使之更加公平、公开、标准和人性化也就随之成为了一个备受关注的话题。但是有一个矛盾体在这其中不断的显现出来:收费可以为搜索引擎公司带来利润,但同时会降低访问者的体验满意度。如何权衡金钱和用户需求之间的天平呢?
Google成功的秘密
到2004年为止,Google(http://www.google.com)已经连续两年被评为全球第一品牌,Google成立仅五年时间,最初只是两个斯坦福大学学生的研究项目。这不能不说是一个奇迹,就像比尔盖茨创制奇迹一样。比尔盖茨能创造奇迹,是因为他看准了个人计算机软件市场的趋势,所以创建的公司叫Microsoft(微软):Micro(小)Soft(软件)。那么Google呢?在 Google出来之前已经有一些很有成就的搜索引擎公司,其实力也很强,看来不只是Google看见了搜索的趋势。Google究竟成功的秘密在哪儿?
Google 的成功有许多因素,最重要的是Google对搜索结果的排序比其它搜索引擎都要好。Google保证让绝大部分用搜索的人,都能在搜索结果的第一页找到他想要的结果。客户得到了满足,下一次还过来,而且会向其他人介绍,这一来一往,使用的人就多了。所以Google在没有做任何广告的前提下,让自己成为了全球最大的品牌。Google究竟采用了哪种排序技术?PageRank,即网页级别。
Google有一个创始人叫Larry Page,据说PageRank的专利是他申请的,于是依据他的名字就有了Page Rank。国内也有一家很成功的搜索引擎公司,叫百度(http://www.baidu.com)。百度的创始人李彦宏说,早在1996年他就申请了名为超链分析的专利,PageRank的原理和超链分析的原理是一样的,而且PageRank目前还在Paten-pending(专利申请中)。言下之意是这里面存在专利所有权的问题。这里不讨论专利所有权,只是从中可看出,成功搜索引擎的排序技术,就其原理上来说都差不多,那就是链接分析。超链分析和 PageRank都属于链接分析。
链接分析到底为何物?由于李彦宏的超链分析没有具体的介绍,笔者唯一看过的就是在美国专利局网站上关于李彦宏的专利介绍。PageRank的介绍倒是不少,而且目前Google毕竟是全球最大的搜索引擎,这里以PageRank为代表,详细介绍链接分析的原理。
PageRank揭密
PageRank 的原理类似于科技论文中的引用机制:谁的论文被引用次数多,谁就是权威。说的更白话一点:张三在谈话中提到了张曼玉,李四在谈话中也提到张曼玉,王五在谈话中还提到张曼玉,这就说明张曼玉一定是很有名的人。在互联网上,链接就相当于“引用”,在B网页中链接了A,相当于B在谈话时提到了A,如果在C、D、 E、F中都链接了A,那么说明A网页是最重要的,A网页的PageRank值也就最高。
如何计算PageRank值有一个简单的公式:
其中:系数为一个大于0,小于1的数。一般设置为0.85。网页1、网页2至网页N表示所有链接指向A的网页。
由以上公式可以看出三点:
1、链接指向A的网页越多,A的级别越高。即A的级别和指向A的网页个数成正比,在公式中表示,N越大, A的级别越高;
2、链接指向A的网页,其网页级别越高, A的级别也越高。即A的级别和指向A的网页自己的网页级别成正比,在公式中表示,网页N级别越高, A的级别也越高;
3、链接指向A的网页,其链出的个数越多,A的级别越低。即A的级别和指向A的网页自己的网页链出个数成反比,在公式中现实,网页N链出个数越多,A的级别越低。
每个网页有一个PageRank值,这样形成一个巨大的方程组,对这个方程组求解,就能得到每个网页的PageRank值。互联网上有上百亿个网页,那么这个方程组就有上百亿个未知数,这个方程虽然是有解,但计算毕竟太复杂了,不可能把这所有的页面放在一起去求解的。对具体的计算方法有兴趣的朋友可以去参考一些数值计算方面的书。
总之,PageRank有效地利用了互联网所拥有的庞大链接构造的特性。从网页A导向网页B的链接,用Google创始人的话讲,是页面A对页面B的支持投票,Google根据这个投票数来判断页面的重要性,但Google除了看投票数(链接数)以外,对投票者(链接的页面)也进行分析。「重要性」高的页面所投的票的评价会更高,因为接受这个投票页面会被理解为「重要的物品」。从新浪、雅虎、微软的首页都有我网页的三个链接的话,可能比我在其他网站找三十个链接还强。如果还有人不理解这个原理,就去想想有句成语叫:三人成虎。如果有三个人都说北京大街上有老虎,那么许多人会认为有老虎,如果这三个人都是国家领导人的话,那么所有人都会认为北京大街上有老虎。
每个网页都会有PageRank值,如果大家想知道自己网站的网页PageRank值是多少,最简单的办法就是下载一个Google的免费工具栏(http://toolbar.google.com/),
每当你打开一个网页,都可以很清楚的看见此网页的PageRank值。当然这个值是一个大概数字。
据Google技术负责人介绍,Google除了用PageRank衡量网页的重要程度以外,还有其它上百种因素来参与排序。其它搜索引擎也是如此,不可能按照某一种规则来进行搜索结果的排序。
其他方法
HillTop算法:
HillTop 同样是一项搜索引擎结果排序的专利,是Google的一个工程师Bharat在2001年获得的专利。Google的排序规则经常在变化,但变化最大的一次也就是基于HillTop算法进行了优化。HillTop究竟原理如何,值得Google如此青睐?
其实HillTop算法的指导思想和PageRank的是一致的,都是通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大:即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。如果网站是介绍“服装”的,有10个链接都是从“服装”相关的网站链接过来,那这10个链接比另外10个从“电器”相关网站链接过来的贡献要大。Bharat称这种对主题有影响的文档为“专家”文档,从这些专家文档页面到目标文档的链接决定了被链接网页“权重得分”的主要部分。
与PageRank结合HillTop算法确定网页与搜索关键词的匹配程度的基本排序过程取代了过份依靠PageRank的值去寻找那些权威页面的方法。这对于两个具有同样主题而且PR相近的网页排序过程中, HillTop算法就显得非常的重要了。HillTop同时也避免了许多想通过增加许多无效链接来提高网页PageRank值的做弊方法。
锚文本(Anchor Text)
锚文本名字听起来难以理解,实际上锚文本就是链接文本。例如,在个人网站上把中央电视台(www.cctv.com)做为新闻频道的链接,访问者通过点击网站上的“新闻频道”就能进入http://www.cctv.com网站,那么“新闻频道”就是中央电视台网站首页的锚文本。
锚文本可以做为锚文本所在的页面的内容的评估。正常来讲,页面中增加的链接都会和页面本身的内容有一定的关系。服装的行业网站上会增加一些同行网站的链接或者一些做服装的知名企业的链接;另一方面,锚文本能做为对所指向页面的评估。锚文本能精确的描述所指向页面的内容,个人网站上增加Google的链接,锚文本为 “搜索引擎”。这样通过锚文本本身就能知道,Google是搜索引擎。
锚文本对搜索引擎起的作用还表现为可以收集一些搜索引擎不能索引的文件。例如,网站上增加了一张张曼玉的照片,格式为jpg文件,搜索引擎目前很难索引(一般只处理文本)。若这张照片链接的锚文本为“张曼玉的照片”,那么搜索引擎就能识别这张图片是张曼玉的照片,以后访问者搜索“张曼玉”的时候,这张图片就能被搜索到。
由此可见,在网页设计中选择合适的锚文本,会让所在网页和所指向网页的重要程度有所提升。
页面版式
每个网页都有版式,包括标题、字体、标签等等。搜索引擎也会利用这些版式来识别搜索词与页面内容的相关程度。以静态的html格式的网页为例,搜索引擎通过网络蜘蛛把网页抓取下来后,需要提取里面的正文内容,过滤其他html代码。在提取内容的时候,搜索引擎就可以记录所有版式信息,包括:哪些词是在标题中出现,哪些词是在正文中出现,哪些词的字体比其他的字体大,哪些词是加粗过,哪些词是用KeyWord标识过的等等。这样在搜索结果中就可以根据这些信息来确定所搜索的结果和搜索词的相关程度。例如搜索“毛泽东”,假如有两个结果,一篇文章标题是《毛泽东的一生》,另一篇文章的标题是《江青的一生》但内容有提到毛泽东,这时搜索引擎会认为前者比较重要,因为“毛泽东”在标题里出现了。
因此,合理的利用网页的页面版式,会提升网页在搜索结果页的排序位置。
收费排名
应该说收费排名并不属于排序技术(这里指的收费排名也包括竞价排名),而是一种搜索引擎的赢利模式。但收费排名已经最直接的影响到了搜索引擎的排序,在此也略做说明。
用户可以购买某个关键词的排名,只要向搜索引擎公司交纳一定的费用,就可以让用户的网站排在搜索结果的前几位,按照不同关键词、不同位置、时间长短来定义价格。价格从几千元到几十万元不等(像“六合彩”在3721上的排名费用大多是几十万)。
收费排名一方面给搜索引擎公司带来收益,一方面给企业带来访问量,另外对访问者也有一定好处。因为访问者想找“西服”,企业想卖“西服”,于是出钱让访问者能找到他,这样,买家和卖家能马上见面。但收费排名给访问者带来更多的却是不真实,结果排序已经失去了公正性,有时候还带来大量垃圾。在百度搜索引擎上搜索“星球”,排在第一位的是一家做石墨的公司,排在第二位的居然是“想找星球?上易趣吧!”(见下图)。真有些让访问者哭笑不得。
当然,对于企业来说,收费排名是提升网站在搜索引擎中排名的最直接和最简单的办法。如今,如何提升网页在搜索引擎中的排序,已经形成了一门职业,叫SEO (Search Engine Optimization),即搜索引擎优化。SEO是针对搜索引擎排序的技术,通过修改网页(或者网站)结构和主动增加网站链接等方法来让搜索引擎认为这些网页是很重要的,从而提升网页在搜索引擎结果中的排序。
排序技术的发展趋势
各种搜索引擎的技术改进和优化,都直接反应到搜索结果的排序上。许多搜索引擎都在进一步研究新的排序方法,来提升客户的满意度。专业人士认为,目前的搜索引擎排序算法上还存在两大不足。
一、没有真正解决相关性。相关性是指搜索词和页面的相关程度。仅仅通过链接、字体、位置等表面特征,不能真正判断搜索词和文章的相关性,更何况许多时候这些特征不会都同时存在。这也是许多对搜索引擎做弊方法能有效的原因。另外,有些文章中没有出现搜索词,但说的就是和搜索词十分相关的内容,例如搜索“恐怖分子”,但有网页是介绍本拉登的一些破坏行动,文中没有出现“恐怖分子”的子眼,搜索引擎就无法搜索到该网页。表面特征只能治标,不能治本。治本的方法应该是增加语意理解,例如主题词和关键词的提取,从语意上分析,得出搜索词和网页的相关程度,分析的越准,效果就会越好。
中国站长资讯网,中国站长第一门户
二、搜索结果的单一化。在搜索引擎上,任何人搜索同一个词的结果都是一样。这样明显不能满足访问者。科学家搜索“星球”,可能是希望了解星球的知识,但普通人可能是想找“星球大战”电影,但搜索引擎所给的都是一样的结果。如何满足这些不同类型的访问者,需要对搜索结果的个性化。国外vivisimo公司(http://www.vivisimo.com)就是想解决这个问题,他们采用对搜索结果自动聚类的办法来满足不同类型客户的需要。搜索结果排序如果要实现从单一化到个性化,vivisimo已经迈出了一步,但最理想的结果应该是针对每个访问者,排序结果直接和他们的搜索习惯和意愿有关。搜索“体育”,对喜欢足球的人应该把足球的相关结果排在前面,对喜欢篮球的人应该把篮球的相关结果排在前面。
中国站长资讯网,中国站长第一门户
搜索引擎的排序技术应该也会朝着解决这两个不足的方向发展:语意相关性和排序个性化。前者需要完善的自然语言处理技术,后者需要记录庞大访问者信息和复杂的计算,要达到其中任何一个的要求均非易事,如何解决这些难题,任务落在了科学家和工程师们的肩上,哪个搜索引擎解决了这些问题,她可能会称为下一个搜索世界的霸主。
随着市场容量和使用者人数的不断激增,如何完善搜索功能使之更加公平、公开、标准和人性化也就随之成为了一个备受关注的话题。但是有一个矛盾体在这其中不断的显现出来:收费可以为搜索引擎公司带来利润,但同时会降低访问者的体验满意度。如何权衡金钱和用户需求之间的天平呢?
Google成功的秘密
到2004年为止,Google(http://www.google.com)已经连续两年被评为全球第一品牌,Google成立仅五年时间,最初只是两个斯坦福大学学生的研究项目。这不能不说是一个奇迹,就像比尔盖茨创制奇迹一样。比尔盖茨能创造奇迹,是因为他看准了个人计算机软件市场的趋势,所以创建的公司叫Microsoft(微软):Micro(小)Soft(软件)。那么Google呢?在 Google出来之前已经有一些很有成就的搜索引擎公司,其实力也很强,看来不只是Google看见了搜索的趋势。Google究竟成功的秘密在哪儿?
Google 的成功有许多因素,最重要的是Google对搜索结果的排序比其它搜索引擎都要好。Google保证让绝大部分用搜索的人,都能在搜索结果的第一页找到他想要的结果。客户得到了满足,下一次还过来,而且会向其他人介绍,这一来一往,使用的人就多了。所以Google在没有做任何广告的前提下,让自己成为了全球最大的品牌。Google究竟采用了哪种排序技术?PageRank,即网页级别。
Google有一个创始人叫Larry Page,据说PageRank的专利是他申请的,于是依据他的名字就有了Page Rank。国内也有一家很成功的搜索引擎公司,叫百度(http://www.baidu.com)。百度的创始人李彦宏说,早在1996年他就申请了名为超链分析的专利,PageRank的原理和超链分析的原理是一样的,而且PageRank目前还在Paten-pending(专利申请中)。言下之意是这里面存在专利所有权的问题。这里不讨论专利所有权,只是从中可看出,成功搜索引擎的排序技术,就其原理上来说都差不多,那就是链接分析。超链分析和 PageRank都属于链接分析。
链接分析到底为何物?由于李彦宏的超链分析没有具体的介绍,笔者唯一看过的就是在美国专利局网站上关于李彦宏的专利介绍。PageRank的介绍倒是不少,而且目前Google毕竟是全球最大的搜索引擎,这里以PageRank为代表,详细介绍链接分析的原理。
PageRank揭密
PageRank 的原理类似于科技论文中的引用机制:谁的论文被引用次数多,谁就是权威。说的更白话一点:张三在谈话中提到了张曼玉,李四在谈话中也提到张曼玉,王五在谈话中还提到张曼玉,这就说明张曼玉一定是很有名的人。在互联网上,链接就相当于“引用”,在B网页中链接了A,相当于B在谈话时提到了A,如果在C、D、 E、F中都链接了A,那么说明A网页是最重要的,A网页的PageRank值也就最高。
如何计算PageRank值有一个简单的公式:
其中:系数为一个大于0,小于1的数。一般设置为0.85。网页1、网页2至网页N表示所有链接指向A的网页。
由以上公式可以看出三点:
1、链接指向A的网页越多,A的级别越高。即A的级别和指向A的网页个数成正比,在公式中表示,N越大, A的级别越高;
2、链接指向A的网页,其网页级别越高, A的级别也越高。即A的级别和指向A的网页自己的网页级别成正比,在公式中表示,网页N级别越高, A的级别也越高;
3、链接指向A的网页,其链出的个数越多,A的级别越低。即A的级别和指向A的网页自己的网页链出个数成反比,在公式中现实,网页N链出个数越多,A的级别越低。
每个网页有一个PageRank值,这样形成一个巨大的方程组,对这个方程组求解,就能得到每个网页的PageRank值。互联网上有上百亿个网页,那么这个方程组就有上百亿个未知数,这个方程虽然是有解,但计算毕竟太复杂了,不可能把这所有的页面放在一起去求解的。对具体的计算方法有兴趣的朋友可以去参考一些数值计算方面的书。
总之,PageRank有效地利用了互联网所拥有的庞大链接构造的特性。从网页A导向网页B的链接,用Google创始人的话讲,是页面A对页面B的支持投票,Google根据这个投票数来判断页面的重要性,但Google除了看投票数(链接数)以外,对投票者(链接的页面)也进行分析。「重要性」高的页面所投的票的评价会更高,因为接受这个投票页面会被理解为「重要的物品」。从新浪、雅虎、微软的首页都有我网页的三个链接的话,可能比我在其他网站找三十个链接还强。如果还有人不理解这个原理,就去想想有句成语叫:三人成虎。如果有三个人都说北京大街上有老虎,那么许多人会认为有老虎,如果这三个人都是国家领导人的话,那么所有人都会认为北京大街上有老虎。
每个网页都会有PageRank值,如果大家想知道自己网站的网页PageRank值是多少,最简单的办法就是下载一个Google的免费工具栏(http://toolbar.google.com/),
每当你打开一个网页,都可以很清楚的看见此网页的PageRank值。当然这个值是一个大概数字。
据Google技术负责人介绍,Google除了用PageRank衡量网页的重要程度以外,还有其它上百种因素来参与排序。其它搜索引擎也是如此,不可能按照某一种规则来进行搜索结果的排序。
其他方法
HillTop算法:
HillTop 同样是一项搜索引擎结果排序的专利,是Google的一个工程师Bharat在2001年获得的专利。Google的排序规则经常在变化,但变化最大的一次也就是基于HillTop算法进行了优化。HillTop究竟原理如何,值得Google如此青睐?
其实HillTop算法的指导思想和PageRank的是一致的,都是通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大:即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。如果网站是介绍“服装”的,有10个链接都是从“服装”相关的网站链接过来,那这10个链接比另外10个从“电器”相关网站链接过来的贡献要大。Bharat称这种对主题有影响的文档为“专家”文档,从这些专家文档页面到目标文档的链接决定了被链接网页“权重得分”的主要部分。
与PageRank结合HillTop算法确定网页与搜索关键词的匹配程度的基本排序过程取代了过份依靠PageRank的值去寻找那些权威页面的方法。这对于两个具有同样主题而且PR相近的网页排序过程中, HillTop算法就显得非常的重要了。HillTop同时也避免了许多想通过增加许多无效链接来提高网页PageRank值的做弊方法。
锚文本(Anchor Text)
锚文本名字听起来难以理解,实际上锚文本就是链接文本。例如,在个人网站上把中央电视台(www.cctv.com)做为新闻频道的链接,访问者通过点击网站上的“新闻频道”就能进入http://www.cctv.com网站,那么“新闻频道”就是中央电视台网站首页的锚文本。
锚文本可以做为锚文本所在的页面的内容的评估。正常来讲,页面中增加的链接都会和页面本身的内容有一定的关系。服装的行业网站上会增加一些同行网站的链接或者一些做服装的知名企业的链接;另一方面,锚文本能做为对所指向页面的评估。锚文本能精确的描述所指向页面的内容,个人网站上增加Google的链接,锚文本为 “搜索引擎”。这样通过锚文本本身就能知道,Google是搜索引擎。
锚文本对搜索引擎起的作用还表现为可以收集一些搜索引擎不能索引的文件。例如,网站上增加了一张张曼玉的照片,格式为jpg文件,搜索引擎目前很难索引(一般只处理文本)。若这张照片链接的锚文本为“张曼玉的照片”,那么搜索引擎就能识别这张图片是张曼玉的照片,以后访问者搜索“张曼玉”的时候,这张图片就能被搜索到。
由此可见,在网页设计中选择合适的锚文本,会让所在网页和所指向网页的重要程度有所提升。
页面版式
每个网页都有版式,包括标题、字体、标签等等。搜索引擎也会利用这些版式来识别搜索词与页面内容的相关程度。以静态的html格式的网页为例,搜索引擎通过网络蜘蛛把网页抓取下来后,需要提取里面的正文内容,过滤其他html代码。在提取内容的时候,搜索引擎就可以记录所有版式信息,包括:哪些词是在标题中出现,哪些词是在正文中出现,哪些词的字体比其他的字体大,哪些词是加粗过,哪些词是用KeyWord标识过的等等。这样在搜索结果中就可以根据这些信息来确定所搜索的结果和搜索词的相关程度。例如搜索“毛泽东”,假如有两个结果,一篇文章标题是《毛泽东的一生》,另一篇文章的标题是《江青的一生》但内容有提到毛泽东,这时搜索引擎会认为前者比较重要,因为“毛泽东”在标题里出现了。
因此,合理的利用网页的页面版式,会提升网页在搜索结果页的排序位置。
收费排名
应该说收费排名并不属于排序技术(这里指的收费排名也包括竞价排名),而是一种搜索引擎的赢利模式。但收费排名已经最直接的影响到了搜索引擎的排序,在此也略做说明。
用户可以购买某个关键词的排名,只要向搜索引擎公司交纳一定的费用,就可以让用户的网站排在搜索结果的前几位,按照不同关键词、不同位置、时间长短来定义价格。价格从几千元到几十万元不等(像“六合彩”在3721上的排名费用大多是几十万)。
收费排名一方面给搜索引擎公司带来收益,一方面给企业带来访问量,另外对访问者也有一定好处。因为访问者想找“西服”,企业想卖“西服”,于是出钱让访问者能找到他,这样,买家和卖家能马上见面。但收费排名给访问者带来更多的却是不真实,结果排序已经失去了公正性,有时候还带来大量垃圾。在百度搜索引擎上搜索“星球”,排在第一位的是一家做石墨的公司,排在第二位的居然是“想找星球?上易趣吧!”(见下图)。真有些让访问者哭笑不得。
当然,对于企业来说,收费排名是提升网站在搜索引擎中排名的最直接和最简单的办法。如今,如何提升网页在搜索引擎中的排序,已经形成了一门职业,叫SEO (Search Engine Optimization),即搜索引擎优化。SEO是针对搜索引擎排序的技术,通过修改网页(或者网站)结构和主动增加网站链接等方法来让搜索引擎认为这些网页是很重要的,从而提升网页在搜索引擎结果中的排序。
排序技术的发展趋势
各种搜索引擎的技术改进和优化,都直接反应到搜索结果的排序上。许多搜索引擎都在进一步研究新的排序方法,来提升客户的满意度。专业人士认为,目前的搜索引擎排序算法上还存在两大不足。
一、没有真正解决相关性。相关性是指搜索词和页面的相关程度。仅仅通过链接、字体、位置等表面特征,不能真正判断搜索词和文章的相关性,更何况许多时候这些特征不会都同时存在。这也是许多对搜索引擎做弊方法能有效的原因。另外,有些文章中没有出现搜索词,但说的就是和搜索词十分相关的内容,例如搜索“恐怖分子”,但有网页是介绍本拉登的一些破坏行动,文中没有出现“恐怖分子”的子眼,搜索引擎就无法搜索到该网页。表面特征只能治标,不能治本。治本的方法应该是增加语意理解,例如主题词和关键词的提取,从语意上分析,得出搜索词和网页的相关程度,分析的越准,效果就会越好。
中国站长资讯网,中国站长第一门户
二、搜索结果的单一化。在搜索引擎上,任何人搜索同一个词的结果都是一样。这样明显不能满足访问者。科学家搜索“星球”,可能是希望了解星球的知识,但普通人可能是想找“星球大战”电影,但搜索引擎所给的都是一样的结果。如何满足这些不同类型的访问者,需要对搜索结果的个性化。国外vivisimo公司(http://www.vivisimo.com)就是想解决这个问题,他们采用对搜索结果自动聚类的办法来满足不同类型客户的需要。搜索结果排序如果要实现从单一化到个性化,vivisimo已经迈出了一步,但最理想的结果应该是针对每个访问者,排序结果直接和他们的搜索习惯和意愿有关。搜索“体育”,对喜欢足球的人应该把足球的相关结果排在前面,对喜欢篮球的人应该把篮球的相关结果排在前面。
中国站长资讯网,中国站长第一门户
搜索引擎的排序技术应该也会朝着解决这两个不足的方向发展:语意相关性和排序个性化。前者需要完善的自然语言处理技术,后者需要记录庞大访问者信息和复杂的计算,要达到其中任何一个的要求均非易事,如何解决这些难题,任务落在了科学家和工程师们的肩上,哪个搜索引擎解决了这些问题,她可能会称为下一个搜索世界的霸主。