<rt id="tf2wb"><bdo id="tf2wb"><kbd id="tf2wb"></kbd></bdo></rt>
    1. <button id="tf2wb"><thead id="tf2wb"></thead></button>

      <rp id="tf2wb"><bdo id="tf2wb"></bdo></rp>
      <delect id="tf2wb"><td id="tf2wb"></td></delect>
      <rt id="tf2wb"></rt>
      <rt id="tf2wb"><bdo id="tf2wb"></bdo></rt>
    2. 企業(yè)與個(gè)人網(wǎng)絡(luò )營(yíng)銷(xiāo)一站式服務(wù)商
      網(wǎng)站建設 / SEO優(yōu)化排名 / 小程序開(kāi)發(fā) / OA
      0731-88571521
      136-3748-2004
      長(cháng)沙做網(wǎng)站:如何了解文章與關(guān)鍵詞的相關(guān)性
      信息來(lái)源:長(cháng)沙做網(wǎng)站   發(fā)布時(shí)間:2015-4-7   瀏覽:

      第一:針對提取出的內容進(jìn)行分詞處理


        個(gè)人認為,搜索引擎可能采用了某種算法,對內容先進(jìn)行了詞語(yǔ)粗分階段,先得出N個(gè)概率最大的切分結果;然后,利用角色標注方法識別未登錄詞,并計算其概率,將未登錄詞加入到切分詞圖中,之后視其為普通詞處理,最終進(jìn)行動(dòng)態(tài)規劃優(yōu)選出N個(gè)最大概率切分標注結果。并進(jìn)行記錄。


      第二:搜索引擎首先對要要分析的網(wǎng)頁(yè)進(jìn)行凈化處理


        網(wǎng)頁(yè)凈化主要是去掉網(wǎng)頁(yè)中大量無(wú)用的廣告、導航欄等網(wǎng)頁(yè)模板噪聲以及無(wú)意義的內容,如Javascript腳本,CSS標記等內容。至于搜索引擎采用的是何種算法,則不為我們所知,但是個(gè)人估計應該是對網(wǎng)頁(yè)進(jìn)行劃分為不同的快,通過(guò)衡量網(wǎng)頁(yè)塊的重要程度來(lái)判斷出包含主題內容的塊,然后提取出該塊的內容,至于搜索引擎如何判別網(wǎng)頁(yè)快的重要程度,那是另外一個(gè)課題。


      第三:對關(guān)鍵詞的權重進(jìn)行確定分析


        在完成對文章分詞切分和凈化工作之后,就要將文章所有關(guān)鍵詞進(jìn)行分析了,筆者的想法是搜索引擎將文本表示成Ⅳ維特征向量,每一維分量由關(guān)鍵詞及其權重組成。一般認為,關(guān)鍵詞在文中的權重的確定,主要由三部分組成,詞頻,位置和詞義共同影響決定。而詞頻和位置對詞語(yǔ)或短語(yǔ)的影響可以通過(guò)確定的算法加以確定,詞義權重也有固定的算法進(jìn)行分析計算。搜索引擎利用設定好的算法對上述關(guān)鍵詞進(jìn)行了計算和分析。從而得到最后的結果。


      第四:對初步分詞的結果進(jìn)行去除無(wú)意義的詞語(yǔ)


        搜索引擎通過(guò)對第二步的分詞結果進(jìn)行分析,去除一些語(yǔ)氣詞和形容詞等非實(shí)意詞和一些單詞,同時(shí)還考慮到單字詞所表達的信息不夠完整也應當濾除。去除停用詞通過(guò)建立一個(gè)停用詞列表來(lái)實(shí)現。這樣,通過(guò)去除這些無(wú)意義的詞之后,剩下的就是有意義的,值得分析的詞匯了。


       筆者認為,搜索引擎通過(guò)上面的步驟進(jìn)行分析后,得到最后的結果,而筆者在這里談?wù)勛约簩λ阉饕婢唧w的分析方式,只是個(gè)人見(jiàn)解:


      第一:搜索引擎基于關(guān)鍵詞出現的頻率


        網(wǎng)頁(yè)中不同關(guān)鍵詞的總數,這是一個(gè)很重要的方面。個(gè)人認為雖然關(guān)鍵詞出現的位置和詞頻大小對關(guān)鍵詞權重影響很大,但是詞頻大并不能決定該詞語(yǔ)適合作為關(guān)鍵詞。舉個(gè)簡(jiǎn)單的例子,我們在一篇文章中對“美國’’進(jìn)行優(yōu)化,出現的詞頻很大,出現的位置也很重要,但是這個(gè)詞還是不能賦予較高的權重,因為“美國’’也廣泛的出現在其他的文獻中,在這些文獻中,“美國"也存在頻率大和所在位置也比較重要。因此,對那些詞頻較高但又不適合作為關(guān)鍵詞的詞語(yǔ)賦予的權重應該較低。


      第二:搜索引擎基于關(guān)鍵詞位置的權重


        在文檔中,關(guān)鍵字所在的位置對于搜索引擎判斷某個(gè)關(guān)鍵字在頁(yè)面的權重起到很重要的作用。比如說(shuō)域名被搜索引擎認為是網(wǎng)站最固定的因素,例如:域名里面含有 DVD關(guān)鍵字的域名,在用戶(hù)檢索關(guān)鍵字DVD的時(shí)候具有先天的優(yōu)勢。標題是網(wǎng)站的最寶貴的資源,搜索引擎認為標題是在瀏覽器標題欄里而顯示,因為要顯示給用戶(hù),所以它是文件最重要和最簡(jiǎn)潔的摘要。適當突出關(guān)鍵字在標題的比重非常有利于排名的提高。


      第三:文檔中重要關(guān)鍵詞之間的距離


        個(gè)人分析,文檔中重要關(guān)鍵詞之間的距離應該也是衡量關(guān)鍵詞與文章的相關(guān)性的一個(gè)重要方面。




      上一條: 長(cháng)沙做網(wǎng)站:如何使外鏈的效率發(fā)揮到極致
      下一條: 長(cháng)沙做網(wǎng)站:判斷網(wǎng)站SEO優(yōu)劣的標準
      案例鑒賞
      多年的網(wǎng)站建設經(jīng)驗,斌網(wǎng)網(wǎng)絡(luò )不斷提升技術(shù)設計服務(wù)水平,迎合搜索引擎優(yōu)化規則
      網(wǎng)絡(luò )營(yíng)銷(xiāo)
      多年的網(wǎng)站建設經(jīng)驗,網(wǎng)至普不斷提升技術(shù)設計服務(wù)水平,迎合搜索引擎優(yōu)化規則
      長(cháng)沙私人做網(wǎng)站    長(cháng)沙做網(wǎng)站    深圳網(wǎng)站建設    株洲做網(wǎng)站    東莞做網(wǎng)站    南京防腐木    湖南大拇指養豬設備    株洲做網(wǎng)站    
      版權所有 © 長(cháng)沙市天心區斌網(wǎng)網(wǎng)絡(luò )技術(shù)服務(wù)部    湘公網(wǎng)安備 43010302000270號  統一社會(huì )信用代碼:92430103MA4LAMB24R  網(wǎng)站ICP備案號:湘ICP備13006070號-2  
      国产精品久久久久精品|久久网国产精品色婷婷免费|国产另类小说 视频 中文字幕|亚洲欧洲日产国码在线|2020最新国产在线不卡A|无码人妻少妇久久中文字幕蜜|99国产一区二区精品久久

          <rt id="tf2wb"><bdo id="tf2wb"><kbd id="tf2wb"></kbd></bdo></rt>
        1. <button id="tf2wb"><thead id="tf2wb"></thead></button>

          <rp id="tf2wb"><bdo id="tf2wb"></bdo></rp>
          <delect id="tf2wb"><td id="tf2wb"></td></delect>
          <rt id="tf2wb"></rt>
          <rt id="tf2wb"><bdo id="tf2wb"></bdo></rt>