|
|
Google分词(cí)算法值得我们(men)好好研究(jiū)一下。Google的搜索结果(guǒ)页(yè)(SERP)与搜索关键字(zì)的相关性,明(míng)显大于百度,这是(shì)因为Google把搜(sōu)索关(guān)键字都(dōu)拆(chāi)分成最基本的词组和单字后,在根据相关性(xìng)去匹配数据库(kù)的中内容(róng),而且Google拆分后的(de)最基本(běn)词组,完(wán)全是根(gēn)据(jù)词典里的词组匹配(pèi)的,也是说它符合国家语言文字工作委员会的规范和标准的(de),这只限(xiàn)于普通词组(公(gōng)众人名、著名品牌名(míng))。
实例1:测试(shì)Google是否(fǒu)有专业名(míng)词(cí)库
在Google搜(sōu)索“搜索引擎关键(jiàn)字(zì)”,Google会(huì)把(bǎ)这(zhè)个(gè)关键字(zì)短语(yǔ)拆分为“搜索—引擎—关(guān)键—字(zì)”,这是(shì)因为“搜索引擎”和“关键字”都是网(wǎng)络专业(yè)词组,可能Google没有(yǒu)专业词组库,所以就被拆分(fèn)成了(le)“搜索—引(yǐn)擎(qíng)—关键(jiàn)—字”。
实例2:测试Google拆分长关键(jiàn)字
在Google搜索“他舅(jiù)WAP流量(liàng)统计分析”,Google把这个关键字短语拆分为“他—舅—wap—流量—统(tǒng)计—分析”六部分(fèn),“WAP”是(shì)一个英文(wén)词组,包括Google和(hé)其(qí)他搜索引擎一般是不(bú)拆分英文词组的(就算它不是英文单词),“流量”、“统(tǒng)计”、“分析”都是(shì)符合国(guó)家语言(yán)规范的标准词组,“他舅”只是中(zhōng)国(guó)老百姓一个口头称谓用语,不符合国(guó)家语言规(guī)范,在词典中根本就查不到(dào)这,所以Google就把“他舅”拆分成(chéng)了两个单字(zì)。
实例3:测试品牌名是否被Google收(shōu)录为词(cí)组
在Google搜(sōu)索(suǒ)“海尔(ěr)冰箱”、“惠普电脑”、“华为通讯”、“美的电器”,“五粮液酒”,“夏利汽车”、“北(běi)京同仁堂”这七个都是(shì)著名的品牌,结果是“海尔(ěr)”、“惠(huì)普”、“华为”、“五粮液”、“同仁(rén)堂”都是单独的词组,没有被拆分(fèn)为单字,“夏利”、“美的”这两(liǎng)个品牌却(què)被(bèi)拆分(fèn)成了(le)单(dān)字。不(bú)是所(suǒ)有品(pǐn)牌都(dōu)能被Google作为(wéi)一个词(cí)组收录(lù)进品牌(pái)词库,Google有(yǒu)自己的收(shōu)录标准(zhǔn)的。
实例4:测试Google是否会(huì)拆分(fèn)成语
下面我们搜(sōu)索(suǒ)一(yī)下韩(hán)乔生的经典名句“迅雷不及掩耳之势”和“山(shān)清水秀(xiù)丽(lì)”,结果“迅雷不及掩耳之势”这个短句被拆(chāi)分成(chéng)了“迅雷—不及—掩耳盗(dào)铃—之—势”,“迅雷”是一(yī)个(gè)符合汉语言规(guī)范的标准词组,不是(shì)指下载工具那个“迅雷”,“不(bú)及(jí)”也是(shì)一(yī)个词组,“掩耳盗铃”也(yě)是符合国家语言规(guī)范的成语(yǔ),“之(zhī)势”不是标(biāo)准(zhǔn)词组,所(suǒ)以(yǐ)就被拆(chāi)分为两个单字。“山清水秀丽”被拆(chāi)分为(wéi)了“山清水秀—丽”,“山清水秀(xiù)”是(shì)一(yī)个成(chéng)语没有拆(chāi)分(fèn)。Google把(bǎ)成语作为几(jǐ)个基本(běn)词(cí)组,不会进一步拆分。
实例5:测试(shì)普通(tōng)之(zhī)间是(shì)否有权重高低之分
搜索“山河水灾”这个(gè)关键字短(duǎn)语(yǔ),结果Google拆分为“山河”和“水灾”两个词组;然后(hòu)搜素“山河水灾情(qíng)”这个(gè)关(guān)键(jiàn)字(zì)短(duǎn)语(yǔ),结(jié)果Google拆分为“山河”、“水”、“灾情”三(sān)部分,“水”字没有和“灾”组成(chéng)词组,反而“灾”和“情”组成了词组,这说(shuō)“灾情(qíng)”这个词(cí)的权(quán)重高于(yú)“水灾”的权(quán)重。这(zhè)说明词组之(zhī)间也是有权(quán)重之分(fèn)的。
根(gēn)据实例(lì)测试推断:Google会(huì)把(bǎ)搜索的关键字(短语(yǔ))拆分为(wéi)最基本的词组,这些普(pǔ)通词(cí)组都是(shì)符合汉语言规范(fàn)的标准词组,不像百度那样(yàng)收录“人造名词”。Google的词组大致可分为普通名词、地名、人名等几类,关键字(zì)(短(duǎn)语(yǔ))都(dōu)是从(cóng)左向右,按(àn)权重高(gāo)低拆分。这些词组权重从低到高依次(cì)如下:人名<普通词组<地名<成语<领导人名(míng)字。进一步测试品牌(pái)名和(hé)人名的(de)权重是一样(yàng),都是最低的,这只(zhī)是一个大(dà)致(zhì)顺序(xù),因为同(tóng)一类(lèi)词组还会(huì)根据日常使用的频率进(jìn)一(yī)步的分级,每一级(jí)的分配不同的权重(chóng),所(suǒ)以同一类(lèi)词组之间(jiān)也(yě)有权(quán)重(chóng)高(gāo)低之分。
|
|