1、記錄搜索引擎蜘蛛的不重復抓取量
上一步我們把蜘蛛的抓取量數據給分析出來(lái)了,然后我們要進(jìn)行去重,也就是搜索引擎的唯一不重復抓取量,其實(shí)對于收錄來(lái)說(shuō),許多頁(yè)面只要抓取一次就可以了,可是在實(shí)際操作的過(guò)程當中,許多頁(yè)面都是被重復抓取的,谷歌的技術(shù)比較先進(jìn)一些,重復抓取率也許會(huì )低一些,可是百度等搜索引擎,重復抓取率卻非常高,你通過(guò)日志分析就可以看出來(lái)了,一天如果抓取量上百萬(wàn),可能好幾萬(wàn)次都是抓取首頁(yè)的,所以許多數據你一定要去分析的,當你分析了后,你才會(huì )知道問(wèn)題的嚴重性。
2、每個(gè)目錄、每個(gè)搜索引擎的抓取量
上邊兩步把總體抓取量、不重復抓取量記錄下來(lái)了,然后我們要分析出每個(gè)搜索引擎對每一個(gè)目錄的抓取情況是怎么樣的,這樣利于進(jìn)行分塊優(yōu)化,例如當你網(wǎng)站流量上升時(shí),你可以知道是哪個(gè)目錄的流量上升了,然后再往下推,看看是哪個(gè)目錄的抓取量上升了,哪個(gè)目錄的抓取量下降了,為什么下降,都可以進(jìn)行分析的,然后在網(wǎng)站中進(jìn)行適當的鏈接結構調整,例如使用nofollow標簽等。
3、每個(gè)搜索引擎的總體抓取量(以及趨勢)
在日志文件中,明確的記錄了每個(gè)搜索引擎的抓取量,例如百度、谷歌、搜狗等搜索引擎的抓取記錄,我們都可以進(jìn)行記錄,使用DOS命令或者Linux命令都可以去實(shí)現的,搜索引擎的收錄是由抓取量以及文章質(zhì)量來(lái)決定的,當文章質(zhì)量不變的情況下,蜘蛛抓取量越大,那么收錄的就會(huì )越多,我們在進(jìn)行日志分析 時(shí)候,一定要清楚的知道蜘蛛每天的抓取量到底是一個(gè)什么情況,而且每天都要記錄,也許絕對值說(shuō)明不了什么,我們可以去看它的趨勢,當某一天抓取量的趨勢在下降時(shí),我們就要去找原因了。
4、統計搜索引擎蜘蛛來(lái)的次數、來(lái)的時(shí)間
我們可以使用一些日志分析工具,設定一個(gè)標準,例如光年日志分析工具,可以統計出每個(gè)搜索引擎蜘蛛每天來(lái)的次數,一天一共在我們網(wǎng)站停留了多久,有沒(méi)有IP蜘蛛一天24小時(shí)都在我們網(wǎng)站不停的抓取,這樣的蜘蛛越多越好,往往是你網(wǎng)站權重提升的表現。這樣的數據可以每天都記錄下來(lái),在一定的時(shí)間段內,進(jìn)行對比分析,看看停留的時(shí)間是不是增加了,來(lái)的次數是不是增多了,這樣可以判斷出網(wǎng)站權重是上升還是下降。
5、統計搜索引擎抓取的狀態(tài)碼
當搜索引擎抓取了你的頁(yè)面后,不但抓取了你的內容,而且還會(huì )有一個(gè)抓取返回碼的,這些返回碼我們要記錄下來(lái),特別是一些類(lèi)似301、404、500等這些狀態(tài)碼,我們從這些狀態(tài)碼中我們找出網(wǎng)站的一些潛在的問(wèn)題,例如為什么會(huì )出現很多404頁(yè)面,是程序原因,還是搜索引擎在抓取外鏈的時(shí)候提取錯誤,其實(shí)我們可以在谷歌管理員工具中看到這些數據的,里邊還會(huì )提示你的錯誤的404頁(yè)面出現在哪里,對于一些301狀態(tài)碼我們也要注意了,看下這些301是不是按照我們所希望的那樣跳轉的,網(wǎng)站中要盡量的少用跳轉,頁(yè)面在跳轉的時(shí)候,往往會(huì )延長(cháng)頁(yè)面的加載時(shí)間,最常見(jiàn)的301可能就是網(wǎng)頁(yè)URL不帶"/"的跳轉到帶“/”的情況了,我們在網(wǎng)站中,要盡量的避免出現這樣的情況。