永久免费看黄网站入口,亚洲日韩欧美自拍另类愉拍,91精品国产乱码在线观看

第一：針對(duì)提取出的內(nèi)容進(jìn)行分詞處理

　　個(gè)人認(rèn)為，搜索引擎可能采用了某種算法，對(duì)內(nèi)容先進(jìn)行了詞語粗分階段，先得出N個(gè)概率最大的切分結(jié)果;然后，利用角色標(biāo)注方法識(shí)別未登錄詞，并計(jì)算其概率，將未登錄詞加入到切分詞圖中，之后視其為普通詞處理，最終進(jìn)行動(dòng)態(tài)規(guī)劃優(yōu)選出N個(gè)最大概率切分標(biāo)注結(jié)果。并進(jìn)行記錄。

第二：搜索引擎首先對(duì)要要分析的網(wǎng)頁進(jìn)行凈化處理

　　網(wǎng)頁凈化主要是去掉網(wǎng)頁中大量無用的廣告、導(dǎo)航欄等網(wǎng)頁模板噪聲以及無意義的內(nèi)容，如Javascript腳本，CSS標(biāo)記等內(nèi)容。至于搜索引擎采用的是何種算法，則不為我們所知，但是個(gè)人估計(jì)應(yīng)該是對(duì)網(wǎng)頁進(jìn)行劃分為不同的快，通過衡量網(wǎng)頁塊的重要程度來判斷出包含主題內(nèi)容的塊，然后提取出該塊的內(nèi)容，至于搜索引擎如何判別網(wǎng)頁快的重要程度，那是另外一個(gè)課題。

第三：對(duì)關(guān)鍵詞的權(quán)重進(jìn)行確定分析

　　在完成對(duì)文章分詞切分和凈化工作之后，就要將文章所有關(guān)鍵詞進(jìn)行分析了，筆者的想法是搜索引擎將文本表示成Ⅳ維特征向量，每一維分量由關(guān)鍵詞及其權(quán)重組成。一般認(rèn)為，關(guān)鍵詞在文中的權(quán)重的確定，主要由三部分組成，詞頻，位置和詞義共同影響決定。而詞頻和位置對(duì)詞語或短語的影響可以通過確定的算法加以確定，詞義權(quán)重也有固定的算法進(jìn)行分析計(jì)算。搜索引擎利用設(shè)定好的算法對(duì)上述關(guān)鍵詞進(jìn)行了計(jì)算和分析。從而得到最后的結(jié)果。

第四：對(duì)初步分詞的結(jié)果進(jìn)行去除無意義的詞語

　　搜索引擎通過對(duì)第二步的分詞結(jié)果進(jìn)行分析，去除一些語氣詞和形容詞等非實(shí)意詞和一些單詞，同時(shí)還考慮到單字詞所表達(dá)的信息不夠完整也應(yīng)當(dāng)濾除。去除停用詞通過建立一個(gè)停用詞列表來實(shí)現(xiàn)。這樣，通過去除這些無意義的詞之后，剩下的就是有意義的，值得分析的詞匯了。

　筆者認(rèn)為，搜索引擎通過上面的步驟進(jìn)行分析后，得到最后的結(jié)果，而筆者在這里談?wù)勛约簩?duì)搜索引擎具體的分析方式，只是個(gè)人見解：

第一：搜索引擎基于關(guān)鍵詞出現(xiàn)的頻率

　　網(wǎng)頁中不同關(guān)鍵詞的總數(shù)，這是一個(gè)很重要的方面。個(gè)人認(rèn)為雖然關(guān)鍵詞出現(xiàn)的位置和詞頻大小對(duì)關(guān)鍵詞權(quán)重影響很大，但是詞頻大并不能決定該詞語適合作為關(guān)鍵詞。舉個(gè)簡(jiǎn)單的例子，我們?cè)谝黄恼轮袑?duì)“美國(guó)’’進(jìn)行優(yōu)化，出現(xiàn)的詞頻很大，出現(xiàn)的位置也很重要，但是這個(gè)詞還是不能賦予較高的權(quán)重，因?yàn)椤懊绹?guó)’’也廣泛的出現(xiàn)在其他的文獻(xiàn)中，在這些文獻(xiàn)中，“美國(guó)"也存在頻率大和所在位置也比較重要。因此，對(duì)那些詞頻較高但又不適合作為關(guān)鍵詞的詞語賦予的權(quán)重應(yīng)該較低。

第二：搜索引擎基于關(guān)鍵詞位置的權(quán)重

　　在文檔中，關(guān)鍵字所在的位置對(duì)于搜索引擎判斷某個(gè)關(guān)鍵字在頁面的權(quán)重起到很重要的作用。比如說域名被搜索引擎認(rèn)為是網(wǎng)站最固定的因素，例如：域名里面含有 DVD關(guān)鍵字的域名，在用戶檢索關(guān)鍵字DVD的時(shí)候具有先天的優(yōu)勢(shì)。標(biāo)題是網(wǎng)站的最寶貴的資源，搜索引擎認(rèn)為標(biāo)題是在瀏覽器標(biāo)題欄里而顯示，因?yàn)橐@示給用戶，所以它是文件最重要和最簡(jiǎn)潔的摘要。適當(dāng)突出關(guān)鍵字在標(biāo)題的比重非常有利于排名的提高。

第三：文檔中重要關(guān)鍵詞之間的距離

　　個(gè)人分析，文檔中重要關(guān)鍵詞之間的距離應(yīng)該也是衡量關(guān)鍵詞與文章的相關(guān)性的一個(gè)重要方面。

上一條：長(zhǎng)沙做網(wǎng)站:如何使外鏈的效率發(fā)揮到極致
下一條：長(zhǎng)沙做網(wǎng)站:判斷網(wǎng)站SEO優(yōu)劣的標(biāo)準(zhǔn)