<rt id="tf2wb"><bdo id="tf2wb"><kbd id="tf2wb"></kbd></bdo></rt>
    1. <button id="tf2wb"><thead id="tf2wb"></thead></button>

      <rp id="tf2wb"><bdo id="tf2wb"></bdo></rp>
      <delect id="tf2wb"><td id="tf2wb"></td></delect>
      <rt id="tf2wb"></rt>
      <rt id="tf2wb"><bdo id="tf2wb"></bdo></rt>
    2. 企業(yè)與個(gè)人網(wǎng)絡(luò )營(yíng)銷(xiāo)一站式服務(wù)商
      網(wǎng)站建設 / SEO優(yōu)化排名 / 小程序開(kāi)發(fā) / OA
      0731-88571521
      136-3748-2004
      百度和谷歌的中文分詞技術(shù)
      信息來(lái)源:長(cháng)沙做網(wǎng)站   發(fā)布時(shí)間:2011-8-21   瀏覽:

        中文分詞是百度和谷歌的核心技術(shù)之一,因此不會(huì )將細節公之于。中華論文聯(lián)盟只能利用黑盒方法進(jìn)行推導,也即通過(guò)輸入檢索提問(wèn),查看結果情況,并通過(guò)兩個(gè)搜索引擎都具備的網(wǎng)頁(yè)快照功能查看各自對檢索提問(wèn)的分詞情況。

        表1 檢索提問(wèn)在百度和谷歌中的分詞情況*

        

       

        第一,推導百度的中文分詞技術(shù)

        第1個(gè)例子說(shuō)明,如果對檢索提問(wèn)用引號做精確檢索,百度對其不進(jìn)行分詞運算。例2說(shuō)明,如果輸入用空格進(jìn)行分割的若干個(gè)子字符串,百度對其自動(dòng)做分詞處理(如果用標點(diǎn)符號分割,也會(huì )做自動(dòng)分詞處理)。例3、6、7、8、10等都說(shuō)明百度對檢索詞會(huì )進(jìn)行多種切分方式,并且首先是不進(jìn)行切分,直接匹配,如果有結果則返回,并排在檢索結果最前面;然后再按照不同形式切分之后再去匹配。

        例4對“比爾蓋茨”的檢索表明,百度有專(zhuān)有名詞庫,例5對“旭日陽(yáng)剛”的檢索表明,百度對新詞收錄較快。例9“旭日陽(yáng)剛才”的分詞結果為“旭日陽(yáng)剛/才”也說(shuō)明,百度對新詞能夠識別。

        例11“大長(cháng)今天天向上”,百度能夠識別出“大長(cháng)今/天天向上”,“大長(cháng)今”為一韓劇名,“天天向上”為一綜藝節目,百度均能正確地識別,表明其詞庫收詞范圍很廣,收詞量很多。例7、8說(shuō)明,百度對在分詞時(shí)不會(huì )忽略“的”、“和”這些意義不大的字(即禁用詞),可以做更多的嘗試,百度對“了”、“嗎”等都不會(huì )忽略,仍作為檢索詞進(jìn)行分詞。

        再探討百度是正向最大匹配還是逆向最大匹配。例7中,對“走路和氣質(zhì)”可以分出“走路/和/氣質(zhì)”,這種結果像是逆向最大匹配法,再看例12,“分居民生活水平”,如果逆向最大匹配法的話(huà)應該是應該分為“分/居民/生活水平”,但事實(shí)上百度對這個(gè)檢索提問(wèn)的分詞結果并不如此,在這個(gè)例子上看似為正向分詞。因此,百度的分詞不是單純的正向最大匹配或者逆向最大匹配,采用的應該是雙向最大匹配法。

        通過(guò)有多種劃分方式的例子(比如例8),可以看出,百度首先是不進(jìn)行分詞,得到“朱德的母親”,然后再識別出專(zhuān)有名詞或新詞,剩余部分又按照先不切分的方式,得到“朱德/的母親”,然后用最少切分法原則,并且用到了3元交叉切分法得到了“朱德的/的母親”。

        第二,推導谷歌的中文分詞技術(shù)

        例1說(shuō)明,對于引號中的檢索提問(wèn),谷歌不進(jìn)行拆分;例2說(shuō)明,用空格分開(kāi)的子字符串,谷歌自動(dòng)做分詞處理(如果用標點(diǎn)符號分割,效果也一樣)。

        例3、4、5、6表明,谷歌對于專(zhuān)有名詞和新詞識別能力較差,對“比爾蓋茨”、“旭日陽(yáng)剛”等都進(jìn)行了分詞處理,甚至連“忐忑”都劃分為了“忐/忑”,“圖書(shū)館”劃分為“圖書(shū)/館”,“中醫藥”劃分為“中/醫藥”,說(shuō)明谷歌的詞庫較小。

        例7、8說(shuō)明,谷歌在分詞時(shí),會(huì )對檢索提問(wèn)中意義不大的字如“的”、“和”忽略,當作禁用詞,然后再進(jìn)行分詞。

        例9、10、11、12都印證了谷歌采取的是逆向最大匹配法,并印證了對專(zhuān)有名詞和新詞識別能力差。在12個(gè)例子中涉及的專(zhuān)有名詞和新詞中,只有“朱德”被正確識別。




      上一條: 做企業(yè)網(wǎng)站更新難? 如何利用站內站策略解決
      下一條: 做網(wǎng)站從建設到優(yōu)化到運營(yíng)突破的五個(gè)問(wèn)題
      案例鑒賞
      多年的網(wǎng)站建設經(jīng)驗,斌網(wǎng)網(wǎng)絡(luò )不斷提升技術(shù)設計服務(wù)水平,迎合搜索引擎優(yōu)化規則
      精辟網(wǎng)文
      多年的網(wǎng)站建設經(jīng)驗,網(wǎng)至普不斷提升技術(shù)設計服務(wù)水平,迎合搜索引擎優(yōu)化規則
      長(cháng)沙私人做網(wǎng)站    長(cháng)沙做網(wǎng)站    深圳網(wǎng)站建設    株洲做網(wǎng)站    東莞做網(wǎng)站    南京防腐木    湖南大拇指養豬設備    株洲做網(wǎng)站    
      版權所有 © 長(cháng)沙市天心區斌網(wǎng)網(wǎng)絡(luò )技術(shù)服務(wù)部    湘公網(wǎng)安備 43010302000270號  統一社會(huì )信用代碼:92430103MA4LAMB24R  網(wǎng)站ICP備案號:湘ICP備13006070號-2  
      国产精品久久久久精品|久久网国产精品色婷婷免费|国产另类小说 视频 中文字幕|亚洲欧洲日产国码在线|2020最新国产在线不卡A|无码人妻少妇久久中文字幕蜜|99国产一区二区精品久久

          <rt id="tf2wb"><bdo id="tf2wb"><kbd id="tf2wb"></kbd></bdo></rt>
        1. <button id="tf2wb"><thead id="tf2wb"></thead></button>

          <rp id="tf2wb"><bdo id="tf2wb"></bdo></rp>
          <delect id="tf2wb"><td id="tf2wb"></td></delect>
          <rt id="tf2wb"></rt>
          <rt id="tf2wb"><bdo id="tf2wb"></bdo></rt>