千万个美丽的未来,抵不上一个温暖的现在,每一个真实的现在,都是我们曾经幻想的未来!
Oct
22
所谓关键字排名竞争者:
曾经有这样的一种概念,用某个关键字进行搜索的时候,搜索也来的结果越多就表明该关键字的竞争越大。但是现在我开始转变这种看法,主要原因是以下几大点:
1、 搜索出来的相关结果不等于存在这么多的竞争者。
2、 在搜索显示出来的相关结果中,真正与搜索关键字有关系的可以只是总数的10%。
3、 在10%中真正以优化搜索关键字为目的的,可能只是其中的10%
我对关键字竞争的看法:
在搜索结果中显示出越多的结果不等于此关键字竞争强,只能以google的说法,这只是与你输入关键字有关的结果的数目。如:我网站的关键字“搜索引擎优化资料”,搜索出来的结果有28,900多项结果,这是否就意味着我有20000多个竞争者呢。答案是否定的!
可能我的竞争者不超过10个!为什么这样说的,因为优化这个关键字的人就不多。查看列出来的结果,其他网站大多数都做“搜索引擎优化”、“网站优化”、“网站排名”等网站推广、网络营销业务的。所以说,我的竞争者并不多。我想,关键字竞争者应该是:多个网站的关键字优化目标都是同一的关键字。如:“网站排名”,一共有1,020,000个相关结果。其中与关键字比较接近的应该有2000~3000个,而这2000~3000个之中,有1000个左右是以优化“网站排名”这个关键字为目的的。显然,在这个例子中,“网站排名”这个关键字的竞争者是在1000左右。
曾经有这样的一种概念,用某个关键字进行搜索的时候,搜索也来的结果越多就表明该关键字的竞争越大。但是现在我开始转变这种看法,主要原因是以下几大点:
1、 搜索出来的相关结果不等于存在这么多的竞争者。
2、 在搜索显示出来的相关结果中,真正与搜索关键字有关系的可以只是总数的10%。
3、 在10%中真正以优化搜索关键字为目的的,可能只是其中的10%
我对关键字竞争的看法:
在搜索结果中显示出越多的结果不等于此关键字竞争强,只能以google的说法,这只是与你输入关键字有关的结果的数目。如:我网站的关键字“搜索引擎优化资料”,搜索出来的结果有28,900多项结果,这是否就意味着我有20000多个竞争者呢。答案是否定的!
可能我的竞争者不超过10个!为什么这样说的,因为优化这个关键字的人就不多。查看列出来的结果,其他网站大多数都做“搜索引擎优化”、“网站优化”、“网站排名”等网站推广、网络营销业务的。所以说,我的竞争者并不多。我想,关键字竞争者应该是:多个网站的关键字优化目标都是同一的关键字。如:“网站排名”,一共有1,020,000个相关结果。其中与关键字比较接近的应该有2000~3000个,而这2000~3000个之中,有1000个左右是以优化“网站排名”这个关键字为目的的。显然,在这个例子中,“网站排名”这个关键字的竞争者是在1000左右。
Oct
22
1、在申请域名前就要确定你网站的主题,而且至少有100个左右与主题相关的页面;而且每个页面都应该有实际的内容。然而这只是网站设计或者说是网站优化的一个开始。
2、域名问题:
对于搜索引擎优化来说,申请域名的时候易记性不是最主要的,最主要的域名里是否包含了所优化的关键字。
3、网页设计的思想:
越简单越好,HTML代码要精简,网页内容要充实,远离花哨的东西。如 FLASH、JAVASCRIPT 等等对搜索引擎来说是不实际的东西,事实上对于浏览者来说意义也不大。要吸引浏览者最重要的是在页面颜色搭配方面多下功夫,要记得浏览者是来看信息而不是来看动画的。
4、链接策略:
A:不要随便与那些质量低、而且还存在作弊的网站交换链接。何谓质量低呢?就是说没有实在的内容,与其描述的主题不贴切。
B:交换外部链接时,尽量要求对方以你所优化的关键字作为链接的关键字
C:内部链接:使网站的结构合理化,每个网页间是相通的。
5、网页大小:
网页占的空间尽量少。一个比较理想的页面是不超过15K的大小。
6、网页内容:
每个网页都要有实际的内容。一般页面的字数最好是在200~500字左右。
7、关键字密度及位置:
密度:关键字的密度最好是不要超过文本数的3%或者更少。
位置:A:Title B:顶部 C:低部
8、上传:
网站没完成之前不要上传,没完成是指,网页中没有“建设中”之类的内容。还有就是检查图片显示、网页间的链接是否存在错误。
9、提交:
向多个搜索引擎或者目录主动提交你的网站。
10、网页内容:
简单明了、易读。用大标题(加粗、下划线等方式)来突出主题。
11、别作弊
不要使用一些被搜索引擎拒绝的优化技术,这是百害而无一利的。
2、域名问题:
对于搜索引擎优化来说,申请域名的时候易记性不是最主要的,最主要的域名里是否包含了所优化的关键字。
3、网页设计的思想:
越简单越好,HTML代码要精简,网页内容要充实,远离花哨的东西。如 FLASH、JAVASCRIPT 等等对搜索引擎来说是不实际的东西,事实上对于浏览者来说意义也不大。要吸引浏览者最重要的是在页面颜色搭配方面多下功夫,要记得浏览者是来看信息而不是来看动画的。
4、链接策略:
A:不要随便与那些质量低、而且还存在作弊的网站交换链接。何谓质量低呢?就是说没有实在的内容,与其描述的主题不贴切。
B:交换外部链接时,尽量要求对方以你所优化的关键字作为链接的关键字
C:内部链接:使网站的结构合理化,每个网页间是相通的。
5、网页大小:
网页占的空间尽量少。一个比较理想的页面是不超过15K的大小。
6、网页内容:
每个网页都要有实际的内容。一般页面的字数最好是在200~500字左右。
7、关键字密度及位置:
密度:关键字的密度最好是不要超过文本数的3%或者更少。
位置:A:Title B:顶部 C:低部
8、上传:
网站没完成之前不要上传,没完成是指,网页中没有“建设中”之类的内容。还有就是检查图片显示、网页间的链接是否存在错误。
9、提交:
向多个搜索引擎或者目录主动提交你的网站。
10、网页内容:
简单明了、易读。用大标题(加粗、下划线等方式)来突出主题。
11、别作弊
不要使用一些被搜索引擎拒绝的优化技术,这是百害而无一利的。
Oct
22
以下是我对百度优化的一些心得,希望对大家能起到一点启发及引导作用。由于水平有限,不当之处还请各位大侠指正,先行谢过!
好了,进入正题。经过几次与百度的正面对话,了解到,百度是严禁使用优化手段提高网站排名。(注意:他们是说禁止优化,并不是禁止作弊!不管他的目的是什么,做好排名依然是我们的工作)以下是我总结的一些被百度认为是优化的手段:
(1) Title,众所周知,是决定排名的一个非常重要的因素。当然,百度不是白痴,所以,他们也会根据Title的写法来给你的网站判刑。尽管如些,我们还是可以在此做做文章。我们选择的关键字毫无疑问地放在最前面,但此处关键字出现的次数不能大于2,而且最好是一些描述性文字,而不是单纯的关键字堆砌。以下是我写过的一个Title,主关键字是“小游戏”:
<title>小游戏-打造全国最好休闲小游戏网站</title>
仔细看看,你会发现更好东东~~~
(2) meta 中的description 及 keyword;很多人有一个非常坏的习惯(起码我认为是这样),在keyworld及description中将关键字以不同形式重复N遍,这个对于任何一个搜索引擎来说都没有好处,一般Google你可以以不同形式重复3-4遍,这对于Google来说是一个非常友好的提示。但是对于百度,尽最大的努力保持在2-3遍内,在description里要尽量写成较长句子,从而减少关键字在description中的密度。又过一关了~~~~~~
(3) 页面优化问题:
切忌在页面最顶端或者任何位置突显关键字。(这句话你细细品味一下,不同的人会有不同的体会,也会有不同的解决方法)当然,也不能以任何的方式增加关键字密度。例如:这是我优化过的一个网站的顶部描述,关键字为“小游戏”:
小游戏:在线小游戏网站,收集国内外精选小游戏,包括经典小游戏及小游戏下载,含搞笑类,射击类,休闲类免费小游戏,迷你小游戏收藏本站
这样的描述在Google或者其他中文引擎起码可以得到80-90分,但百度,是0;无论你写得多么通顺,结果只能是封!
(4) 链接问题:
为了进一步打击优化网站,百度还有一个强硬措施就是对于与优化网站链接给予降权处理。解决方法,用flash转向实现,下载这个flash文件(http://www.10flash.net/url.swf),然后以以下形式写链接地址,http://www.10flash.net/url.swf?url=http://www.flash-game.com.cn即可解决此问题。
上面叙述的是一些大家都优化网站时容易忽略的要素,“Google是搜索引擎的标准,做好Google优化在其他搜索引擎上也会有不错的排名。”但是我们不能以Google的模式去优化中文网站,如果你还在乎百度的话。百度在中文搜索中无疑还占据一个很大的份量,如果你要与他过不去,我可以肯定你是一个跟钱过不去的家伙。我做的一个主关键字“小游戏”,N多关键字排行超好,在百度也曾风光过一阵子,每天带来接近两万个IP流量。如今风光不再,痛定思痛,得出以上一些简单经验。由于还没经过实践,所以也不能断言这是正确的。
好了,进入正题。经过几次与百度的正面对话,了解到,百度是严禁使用优化手段提高网站排名。(注意:他们是说禁止优化,并不是禁止作弊!不管他的目的是什么,做好排名依然是我们的工作)以下是我总结的一些被百度认为是优化的手段:
(1) Title,众所周知,是决定排名的一个非常重要的因素。当然,百度不是白痴,所以,他们也会根据Title的写法来给你的网站判刑。尽管如些,我们还是可以在此做做文章。我们选择的关键字毫无疑问地放在最前面,但此处关键字出现的次数不能大于2,而且最好是一些描述性文字,而不是单纯的关键字堆砌。以下是我写过的一个Title,主关键字是“小游戏”:
<title>小游戏-打造全国最好休闲小游戏网站</title>
仔细看看,你会发现更好东东~~~
(2) meta 中的description 及 keyword;很多人有一个非常坏的习惯(起码我认为是这样),在keyworld及description中将关键字以不同形式重复N遍,这个对于任何一个搜索引擎来说都没有好处,一般Google你可以以不同形式重复3-4遍,这对于Google来说是一个非常友好的提示。但是对于百度,尽最大的努力保持在2-3遍内,在description里要尽量写成较长句子,从而减少关键字在description中的密度。又过一关了~~~~~~
(3) 页面优化问题:
切忌在页面最顶端或者任何位置突显关键字。(这句话你细细品味一下,不同的人会有不同的体会,也会有不同的解决方法)当然,也不能以任何的方式增加关键字密度。例如:这是我优化过的一个网站的顶部描述,关键字为“小游戏”:
小游戏:在线小游戏网站,收集国内外精选小游戏,包括经典小游戏及小游戏下载,含搞笑类,射击类,休闲类免费小游戏,迷你小游戏收藏本站
这样的描述在Google或者其他中文引擎起码可以得到80-90分,但百度,是0;无论你写得多么通顺,结果只能是封!
(4) 链接问题:
为了进一步打击优化网站,百度还有一个强硬措施就是对于与优化网站链接给予降权处理。解决方法,用flash转向实现,下载这个flash文件(http://www.10flash.net/url.swf),然后以以下形式写链接地址,http://www.10flash.net/url.swf?url=http://www.flash-game.com.cn即可解决此问题。
上面叙述的是一些大家都优化网站时容易忽略的要素,“Google是搜索引擎的标准,做好Google优化在其他搜索引擎上也会有不错的排名。”但是我们不能以Google的模式去优化中文网站,如果你还在乎百度的话。百度在中文搜索中无疑还占据一个很大的份量,如果你要与他过不去,我可以肯定你是一个跟钱过不去的家伙。我做的一个主关键字“小游戏”,N多关键字排行超好,在百度也曾风光过一阵子,每天带来接近两万个IP流量。如今风光不再,痛定思痛,得出以上一些简单经验。由于还没经过实践,所以也不能断言这是正确的。
Oct
22
第一要素:网页的内容
搜索引擎业界如是说:Content is king。网站的内容始终是第一位的。人们总是愿意去浏览那些时常更新的,提供了丰富而有趣味性的内容的网站。同时这样的网站又总是能够轻松赢得搜索引擎的好感。原因很简单:Internet是一个“信息”高速公路,人们往往通过它来找到所需要的信息。而一个站点上的信息就是它的网站内容。
注意:我们所说的内容丰富并不是指内容的繁杂,而是指内容的深度、实用性和趣味性。同时,网页大小最好不要超过50K。体型庞大的网页下载速度慢,不仅会让普通访问者等得心急如焚,有时也会使SPIDERS感到不耐烦。
第二要素:友好的网页设计结构
在设计网页时不单考虑外观漂亮,还要考虑到搜索引擎是否能够很好地支持你的设计结构。下面这些设计风格对搜索引擎是缺乏友好度的:
A) FRAMES(框架结构)
Frames在信息查找,建立网站正规化概念等方面非常有优势。很多使用frames技术的网站开发与设计人员,就是看上了它导航清晰且方便维护的优点。但是,象Excite,iWON,Lycos等一些大型搜索引擎仍然不支持FRAMES。而Google,Altavista等虽然能够支持FRAMES,但检索效果不是很好。
解决方案:
搜索引擎能够跟读Noframes中的内容。所以可利用Noframes标识进行内容的填充和优化,在Noframes区域中应包含使用Frames的网页的链接。参看:FRAMES的优化技巧。
B) FLASH动画
Flash制作的网页视觉效果较好,但它面临和Frames一样的问题:搜索引擎对这类网站的索引仍有一定难度,而且目前为止只有Google和Alltheweb能够跟进检索Flash对象中的内嵌链接。此外,一个纯Flash网页的打开速度也相当的慢。
解决方案:
最好提供Flash和非Flash网页两种选择,这样既增加了网页的观赏性,又照顾到了搜索引擎的“情绪”。
C) SPLASH页
即纯图象网页:页面由图象组成,几乎没有文本内容。搜索引擎一般拒绝收录这样的网站,即使收录也不会给予重要性。它们认为这样的网站没有给用户提供信息内容。
D) DYNAMIC PAGES(动态网页)
动态网页通常由ASP,PHP,Cold Fusion,CGI等程序产生。具有容易维护和更新的优点,尤其适合大规模网站。但因为害怕被数据库套住,所以仍有相当一部分数引擎不支持动态页,而且虽然目前有的大型搜索引擎(如Google)已具备检索动态网页的能力,但为了确保其Spider程序免遭死循环之灾,它们不会对动态页中的链接进行跟踪访问。
解决方案:
可将动态网页改成静态html文件。具体操作程序参看:动态网页的搜索引擎优化。不过最好还是尽量使用静态网页。
E) JAVASCRIPT/JAVA APPLETS
搜索引擎不支持Java Applets。所以不要在网页中大量使用Java Applets。同时尽量不要使用Java设计网站,它会使网页打开速度变慢,妨碍搜索引擎对该网页的检索。
解决方案:
Java技术设计网站时,尽可能把所有Javascript放到一个外部文件中,然后用<Script src="your_javascript_code.js"></Script>来调用这个文件。
第三要素:页面关键字&关键字密度
Google通过页面的关键词密度(keyword density)来决定该页面对关键字的关联度。所以应确保关键字在整个网页中的充分利用和合理分布。即:充分利用所有可以利用的因素,但不要过分重复或简单排列关键字。应遵循必要的语法规则,形成自然流畅的语句,使网页不失吸引力。从页面因素的优化角度出发,可考虑将关键字分布于:
A) 网页标题元(META TITLE)
在搜索关键字进行匹配时,Google会对META TITLE中出现的关键字给予较高的“重要性”。所以应确保网页标题中包含了目标关键词。即应围绕你最重要的关键字来决定网页标题的内容。网页的标题不可过长,一般宜控制在10到20个字符之间。
B) 网页描述/关键字元(META DESCRIPTION/KEYWORDS)
由于这些Meta Tags的内容并不能为实际访问者所见,而且搜引擎认为这些元标识很容易被网站设计者用来误导用户。所以很多搜索引擎如Google,FAST/Alltheweb,Excite,Lycos等一般都会对这些Meta Tags“视而不见”。但你可以发现在它们的搜索结果中,一般都会使用网站自身的描述元标识作为对该网站的描述。而且对一些大型的meta tags搜索引擎来说(如ExactSeek),它们是根据网站的meta tags来决定排名的。
此外我们发现,条件完全相同下,META TAGS的顺序对排名有时候也有一点影响。象
<title>网站优化/国际推广</title>
<meta name="description" content="网站优化及国际推广咨询服务.">
<meta name="keywords" content="网站优化, 网站国际推广">
就不如
<meta name="keywords" content="网站优化, 网站国际推广">
<meta name="description" content="网站优化及国际推广咨询服务.">
<title>网站优化/国际推广</title>
的排名高。
C) 正文标题
在网页的正文标题中涵盖关键字,并使用<H>属性来强调突出。形如:<H(1,2,3…>标题内容</H(1,2,3…)>。
D) 正文内容
在网页的正文中合理穿插关键词,可对正文中出现的关键词进行加粗显示。一般6-10%的关键词密度为最佳。
E) 文本链接(Text Links)
搜索引擎对文本链接中出现的关键词给予比较高的“关注”。在文本链接中包含关键词可有效提高网站相关性得分。
F) ALT标识(ALT Tags)
搜索引擎如Google等都支持ALT属性文字。所以应给网页中的图片都加上ALT属性,并在属性文字中尽量涵盖关键词来增加网站的相关性得分。
结束语
著名的建筑师路易斯·沙利文(Louis Henri Sullivan)在1986年曾经说过:“形式总是跟着功能在走”。他并不是说功能的重要性总是凌驾于形式之上,而是说这两者的关系其实是密不可分的。
他所倡导的这个思想,事实上对于网站的设计和开发也是相当适用。事实上,一个网站的功能性和形式应属于共生的关系。而功能性和形式严重失衡的一个典型证,就是基于Flash的网站和经过过度网页优化的网站。它们变成了一边倒,却不是倒向实际访问者。也就是说倒向了搜索引擎,而顾此失彼。所以在网站开发中,开发者应注意融合网站的形式和功能性,从而达到两者的密不可分。
搜索引擎业界如是说:Content is king。网站的内容始终是第一位的。人们总是愿意去浏览那些时常更新的,提供了丰富而有趣味性的内容的网站。同时这样的网站又总是能够轻松赢得搜索引擎的好感。原因很简单:Internet是一个“信息”高速公路,人们往往通过它来找到所需要的信息。而一个站点上的信息就是它的网站内容。
注意:我们所说的内容丰富并不是指内容的繁杂,而是指内容的深度、实用性和趣味性。同时,网页大小最好不要超过50K。体型庞大的网页下载速度慢,不仅会让普通访问者等得心急如焚,有时也会使SPIDERS感到不耐烦。
第二要素:友好的网页设计结构
在设计网页时不单考虑外观漂亮,还要考虑到搜索引擎是否能够很好地支持你的设计结构。下面这些设计风格对搜索引擎是缺乏友好度的:
A) FRAMES(框架结构)
Frames在信息查找,建立网站正规化概念等方面非常有优势。很多使用frames技术的网站开发与设计人员,就是看上了它导航清晰且方便维护的优点。但是,象Excite,iWON,Lycos等一些大型搜索引擎仍然不支持FRAMES。而Google,Altavista等虽然能够支持FRAMES,但检索效果不是很好。
解决方案:
搜索引擎能够跟读Noframes中的内容。所以可利用Noframes标识进行内容的填充和优化,在Noframes区域中应包含使用Frames的网页的链接。参看:FRAMES的优化技巧。
B) FLASH动画
Flash制作的网页视觉效果较好,但它面临和Frames一样的问题:搜索引擎对这类网站的索引仍有一定难度,而且目前为止只有Google和Alltheweb能够跟进检索Flash对象中的内嵌链接。此外,一个纯Flash网页的打开速度也相当的慢。
解决方案:
最好提供Flash和非Flash网页两种选择,这样既增加了网页的观赏性,又照顾到了搜索引擎的“情绪”。
C) SPLASH页
即纯图象网页:页面由图象组成,几乎没有文本内容。搜索引擎一般拒绝收录这样的网站,即使收录也不会给予重要性。它们认为这样的网站没有给用户提供信息内容。
D) DYNAMIC PAGES(动态网页)
动态网页通常由ASP,PHP,Cold Fusion,CGI等程序产生。具有容易维护和更新的优点,尤其适合大规模网站。但因为害怕被数据库套住,所以仍有相当一部分数引擎不支持动态页,而且虽然目前有的大型搜索引擎(如Google)已具备检索动态网页的能力,但为了确保其Spider程序免遭死循环之灾,它们不会对动态页中的链接进行跟踪访问。
解决方案:
可将动态网页改成静态html文件。具体操作程序参看:动态网页的搜索引擎优化。不过最好还是尽量使用静态网页。
E) JAVASCRIPT/JAVA APPLETS
搜索引擎不支持Java Applets。所以不要在网页中大量使用Java Applets。同时尽量不要使用Java设计网站,它会使网页打开速度变慢,妨碍搜索引擎对该网页的检索。
解决方案:
Java技术设计网站时,尽可能把所有Javascript放到一个外部文件中,然后用<Script src="your_javascript_code.js"></Script>来调用这个文件。
第三要素:页面关键字&关键字密度
Google通过页面的关键词密度(keyword density)来决定该页面对关键字的关联度。所以应确保关键字在整个网页中的充分利用和合理分布。即:充分利用所有可以利用的因素,但不要过分重复或简单排列关键字。应遵循必要的语法规则,形成自然流畅的语句,使网页不失吸引力。从页面因素的优化角度出发,可考虑将关键字分布于:
A) 网页标题元(META TITLE)
在搜索关键字进行匹配时,Google会对META TITLE中出现的关键字给予较高的“重要性”。所以应确保网页标题中包含了目标关键词。即应围绕你最重要的关键字来决定网页标题的内容。网页的标题不可过长,一般宜控制在10到20个字符之间。
B) 网页描述/关键字元(META DESCRIPTION/KEYWORDS)
由于这些Meta Tags的内容并不能为实际访问者所见,而且搜引擎认为这些元标识很容易被网站设计者用来误导用户。所以很多搜索引擎如Google,FAST/Alltheweb,Excite,Lycos等一般都会对这些Meta Tags“视而不见”。但你可以发现在它们的搜索结果中,一般都会使用网站自身的描述元标识作为对该网站的描述。而且对一些大型的meta tags搜索引擎来说(如ExactSeek),它们是根据网站的meta tags来决定排名的。
此外我们发现,条件完全相同下,META TAGS的顺序对排名有时候也有一点影响。象
<title>网站优化/国际推广</title>
<meta name="description" content="网站优化及国际推广咨询服务.">
<meta name="keywords" content="网站优化, 网站国际推广">
就不如
<meta name="keywords" content="网站优化, 网站国际推广">
<meta name="description" content="网站优化及国际推广咨询服务.">
<title>网站优化/国际推广</title>
的排名高。
C) 正文标题
在网页的正文标题中涵盖关键字,并使用<H>属性来强调突出。形如:<H(1,2,3…>标题内容</H(1,2,3…)>。
D) 正文内容
在网页的正文中合理穿插关键词,可对正文中出现的关键词进行加粗显示。一般6-10%的关键词密度为最佳。
E) 文本链接(Text Links)
搜索引擎对文本链接中出现的关键词给予比较高的“关注”。在文本链接中包含关键词可有效提高网站相关性得分。
F) ALT标识(ALT Tags)
搜索引擎如Google等都支持ALT属性文字。所以应给网页中的图片都加上ALT属性,并在属性文字中尽量涵盖关键词来增加网站的相关性得分。
结束语
著名的建筑师路易斯·沙利文(Louis Henri Sullivan)在1986年曾经说过:“形式总是跟着功能在走”。他并不是说功能的重要性总是凌驾于形式之上,而是说这两者的关系其实是密不可分的。
他所倡导的这个思想,事实上对于网站的设计和开发也是相当适用。事实上,一个网站的功能性和形式应属于共生的关系。而功能性和形式严重失衡的一个典型证,就是基于Flash的网站和经过过度网页优化的网站。它们变成了一边倒,却不是倒向实际访问者。也就是说倒向了搜索引擎,而顾此失彼。所以在网站开发中,开发者应注意融合网站的形式和功能性,从而达到两者的密不可分。
Oct
22
信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。
搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度(http://www.baidu.com/)、中搜(http://www.zhongsou.com/)等。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。
什么是中文分词
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。
中文分词和搜索引擎
中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。笔者最近替朋友找一些关于日本和服的资料,在搜索引擎上输入“和服”,得到的结果就发现了很多问题。下面就以这个例子来说明分词对搜索结果的影响,在现有三个中文搜索引擎上做测试,测试方法是直接在Google(http://www.google.com/)、百度(http://www.baidu.com/)、中搜(http://www.zhongsou.com/)上以“和服”为关键词进行搜索:
在Google上输入“和服”搜索所有中文简体网页,总共结果507,000条,前20条结果中有14条与和服一点关系都没有。在第一页就有以下错误:
“通信信息报:瑞星以技术和服务开拓网络安全市场”
“使用纯HTML的通用数据管理和服务- 开发者- ZDNet ...”
“陈慧琳《心口不一》化妆和服装自己包办”
“::外交部:中国境外领事保护和服务指南(2003年版) ...”
“产品和服务”
等等。第一页只有三篇是真正在讲“和服”的结果。
在百度上输入“和服”搜索网页,总共结果为287,000条,前20条结果中有6条与和服一点关系都没有。在第一页有以下错误:
“福建省晋江市恒和服装有限公司系独资企业”
“关于商品和服务实行明码标价的规定”
“青岛东和服装设备”
在中搜上输入“和服”搜索网页,总共结果为26,917条,前20条结果都是与和服相关的网页。
这次搜索引擎结果中的错误,就是由于分词的不准确所造成的。通过笔者的了解,Google的中文分词技术采用的是美国一家名叫Basis Technology(http://www.basistech.com/)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com/)提供的分词技术。由此可见,中文分词的准确度,对搜索引擎结果相关性和准确性有相当大的关系。
中文分词技术
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
1、基于字符串匹配的分词方法
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小)。
还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。
对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。
2、基于理解的分词方法
这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。
3、基于统计的分词方法
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。
分词中的难题
有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。
1、歧义识别
歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?
如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。
2、新词识别
新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?
新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。
中文分词的应用
目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。
分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于更多的产品,还有很长一段路。
搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度(http://www.baidu.com/)、中搜(http://www.zhongsou.com/)等。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。
什么是中文分词
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。
中文分词和搜索引擎
中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。笔者最近替朋友找一些关于日本和服的资料,在搜索引擎上输入“和服”,得到的结果就发现了很多问题。下面就以这个例子来说明分词对搜索结果的影响,在现有三个中文搜索引擎上做测试,测试方法是直接在Google(http://www.google.com/)、百度(http://www.baidu.com/)、中搜(http://www.zhongsou.com/)上以“和服”为关键词进行搜索:
在Google上输入“和服”搜索所有中文简体网页,总共结果507,000条,前20条结果中有14条与和服一点关系都没有。在第一页就有以下错误:
“通信信息报:瑞星以技术和服务开拓网络安全市场”
“使用纯HTML的通用数据管理和服务- 开发者- ZDNet ...”
“陈慧琳《心口不一》化妆和服装自己包办”
“::外交部:中国境外领事保护和服务指南(2003年版) ...”
“产品和服务”
等等。第一页只有三篇是真正在讲“和服”的结果。
在百度上输入“和服”搜索网页,总共结果为287,000条,前20条结果中有6条与和服一点关系都没有。在第一页有以下错误:
“福建省晋江市恒和服装有限公司系独资企业”
“关于商品和服务实行明码标价的规定”
“青岛东和服装设备”
在中搜上输入“和服”搜索网页,总共结果为26,917条,前20条结果都是与和服相关的网页。
这次搜索引擎结果中的错误,就是由于分词的不准确所造成的。通过笔者的了解,Google的中文分词技术采用的是美国一家名叫Basis Technology(http://www.basistech.com/)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com/)提供的分词技术。由此可见,中文分词的准确度,对搜索引擎结果相关性和准确性有相当大的关系。
中文分词技术
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
1、基于字符串匹配的分词方法
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小)。
还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。
对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。
2、基于理解的分词方法
这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。
3、基于统计的分词方法
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。
分词中的难题
有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。
1、歧义识别
歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?
如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。
2、新词识别
新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?
新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。
中文分词的应用
目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。
分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于更多的产品,还有很长一段路。