第一:針對提取出的內容進(jìn)行分詞處理
個(gè)人認為,搜索引擎可能采用了某種算法,對內容先進(jìn)行了詞語(yǔ)粗分階段,先得出N個(gè)概率最大的切分結果;然后,利用角色標注方法識別未登錄詞,并計算其概率,將未登錄詞加入到切分詞圖中,之后視其為普通詞處理,最終進(jìn)行動(dòng)態(tài)規劃優(yōu)選出N個(gè)最大概率切分標注結果。并進(jìn)行記錄。
第二:搜索引擎首先對要要分析的網(wǎng)頁(yè)進(jìn)行凈化處理
網(wǎng)頁(yè)凈化主要是去掉網(wǎng)頁(yè)中大量無(wú)用的廣告、導航欄等網(wǎng)頁(yè)模板噪聲以及無(wú)意義的內容,如Javascript腳本,CSS標記等內容。至于搜索引擎采用的是何種算法,則不為我們所知,但是個(gè)人估計應該是對網(wǎng)頁(yè)進(jìn)行劃分為不同的快,通過(guò)衡量網(wǎng)頁(yè)塊的重要程度來(lái)判斷出包含主題內容的塊,然后提取出該塊的內容,至于搜索引擎如何判別網(wǎng)頁(yè)快的重要程度,那是另外一個(gè)課題。
第三:對關(guān)鍵詞的權重進(jìn)行確定分析
在完成對文章分詞切分和凈化工作之后,就要將文章所有關(guān)鍵詞進(jìn)行分析了,筆者的想法是搜索引擎將文本表示成Ⅳ維特征向量,每一維分量由關(guān)鍵詞及其權重組成。一般認為,關(guān)鍵詞在文中的權重的確定,主要由三部分組成,詞頻,位置和詞義共同影響決定。而詞頻和位置對詞語(yǔ)或短語(yǔ)的影響可以通過(guò)確定的算法加以確定,詞義權重也有固定的算法進(jìn)行分析計算。搜索引擎利用設定好的算法對上述關(guān)鍵詞進(jìn)行了計算和分析。從而得到最后的結果。
第四:對初步分詞的結果進(jìn)行去除無(wú)意義的詞語(yǔ)
搜索引擎通過(guò)對第二步的分詞結果進(jìn)行分析,去除一些語(yǔ)氣詞和形容詞等非實(shí)意詞和一些單詞,同時(shí)還考慮到單字詞所表達的信息不夠完整也應當濾除。去除停用詞通過(guò)建立一個(gè)停用詞列表來(lái)實(shí)現。這樣,通過(guò)去除這些無(wú)意義的詞之后,剩下的就是有意義的,值得分析的詞匯了。
筆者認為,搜索引擎通過(guò)上面的步驟進(jìn)行分析后,得到最后的結果,而筆者在這里談?wù)勛约簩λ阉饕婢唧w的分析方式,只是個(gè)人見(jiàn)解:
第一:搜索引擎基于關(guān)鍵詞出現的頻率
網(wǎng)頁(yè)中不同關(guān)鍵詞的總數,這是一個(gè)很重要的方面。個(gè)人認為雖然關(guān)鍵詞出現的位置和詞頻大小對關(guān)鍵詞權重影響很大,但是詞頻大并不能決定該詞語(yǔ)適合作為關(guān)鍵詞。舉個(gè)簡(jiǎn)單的例子,我們在一篇文章中對“美國’’進(jìn)行優(yōu)化,出現的詞頻很大,出現的位置也很重要,但是這個(gè)詞還是不能賦予較高的權重,因為“美國’’也廣泛的出現在其他的文獻中,在這些文獻中,“美國"也存在頻率大和所在位置也比較重要。因此,對那些詞頻較高但又不適合作為關(guān)鍵詞的詞語(yǔ)賦予的權重應該較低。
第二:搜索引擎基于關(guān)鍵詞位置的權重
在文檔中,關(guān)鍵字所在的位置對于搜索引擎判斷某個(gè)關(guān)鍵字在頁(yè)面的權重起到很重要的作用。比如說(shuō)域名被搜索引擎認為是網(wǎng)站最固定的因素,例如:域名里面含有 DVD關(guān)鍵字的域名,在用戶(hù)檢索關(guān)鍵字DVD的時(shí)候具有先天的優(yōu)勢。標題是網(wǎng)站的最寶貴的資源,搜索引擎認為標題是在瀏覽器標題欄里而顯示,因為要顯示給用戶(hù),所以它是文件最重要和最簡(jiǎn)潔的摘要。適當突出關(guān)鍵字在標題的比重非常有利于排名的提高。
第三:文檔中重要關(guān)鍵詞之間的距離
個(gè)人分析,文檔中重要關(guān)鍵詞之間的距離應該也是衡量關(guān)鍵詞與文章的相關(guān)性的一個(gè)重要方面。