大家都知道所謂的網(wǎng)站日志,就是網(wǎng)站所在服務(wù)器接受用戶(hù)的各種請求的時(shí)候進(jìn)行的處理狀況的記錄,無(wú)論是正常處理或者是出了各種錯誤,都會(huì )在網(wǎng)站日志中記錄下來(lái),其文件結尾以.log為擴展名。通過(guò)對網(wǎng)站日志的分析,我們可以很好的判斷我們的網(wǎng)站的健康程度,并且還可以看到蜘蛛抓取的記錄以及用戶(hù)的一些行為記錄,這樣數據對于我們來(lái)講無(wú)疑是提升網(wǎng)站的一個(gè)關(guān)鍵,可以時(shí)刻的讓我們看到網(wǎng)站的不足之處,從而進(jìn)行改正。
(一)查看蜘蛛訪(fǎng)問(wèn)的次數、停留時(shí)間以及抓取的數量。
從小標題中的三個(gè)小編提到的數據我們可以了解到下面幾點(diǎn)信息:
1、平均每次抓取頁(yè)面數=總抓取量/訪(fǎng)問(wèn)次數
2、單頁(yè)抓取停留=每次停留/每次抓取
3、平均每次停留時(shí)間=總停留時(shí)間/訪(fǎng)問(wèn)次數
以上三點(diǎn)載自百度百科。
從這些數據中我們可以很好的看出百度蜘蛛在我們網(wǎng)站上的活躍度、是否親和,以及我們網(wǎng)站內容抓取的深度等等有效的數據。當我們網(wǎng)站中總的訪(fǎng)問(wèn)頻次、蜘蛛停留的時(shí)間,以及網(wǎng)站抓取程度的是否高,從這些都是可以看出我們網(wǎng)站是否受到蜘蛛的喜愛(ài)。并且在我們單頁(yè)面的蜘蛛停留時(shí)間的長(cháng)短也可以看出我們的文章頁(yè)面是否受蜘蛛的喜愛(ài)。
(二)了解蜘蛛是否訪(fǎng)問(wèn)我們的頁(yè)面以及訪(fǎng)問(wèn)頁(yè)面的狀態(tài)代碼。
很多朋友的網(wǎng)站主頁(yè)快照經(jīng)常不正常,網(wǎng)站發(fā)布的文章也經(jīng)常不收錄,面對這樣的情況我們都會(huì )想蜘蛛有沒(méi)有到我們的網(wǎng)站抓取。這時(shí)候我們也可以通過(guò)網(wǎng)站日志來(lái)看是否有蜘蛛IP的記錄就可以了解蜘蛛是否來(lái)爬行我們的網(wǎng)站,從而判斷是否是我們網(wǎng)站質(zhì)量的原因導致不收錄。并且也可以看出蜘蛛訪(fǎng)問(wèn)我們網(wǎng)站頁(yè)面的狀態(tài)代碼,例如說(shuō)301、503、403等,當出現這樣情況的時(shí)候,我們盡早做處理,以免成為網(wǎng)站降權的隱患。長(cháng)沙做網(wǎng)站
(三)網(wǎng)站日志文件應該按訪(fǎng)問(wèn)量多少,來(lái)確定是否需要按小時(shí)生成。
我的一個(gè)站長(cháng)朋友,網(wǎng)站是每天生成一個(gè)日志文件,前段時(shí)間他參加了電商圈比賽,網(wǎng)站排名保持在首頁(yè),每天的流量有上千IP,每天的網(wǎng)站日志文件大小大約50M左右,有點(diǎn)杯具的是他的電腦舊了點(diǎn),一打開(kāi)網(wǎng)站日志文件不是沒(méi)反應就是死機。他只好通過(guò)網(wǎng)絡(luò )把日志傳給我,讓我幫著(zhù)分析一下,50M的文件雖然不大,問(wèn)題是他用電信網(wǎng)絡(luò ),我用網(wǎng)通網(wǎng)絡(luò ),在傳日志的時(shí)候經(jīng)常杯具。50M的日志文件,我用的日志分析程序也經(jīng)常數據溢出、崩潰,無(wú)奈只好用文本編輯打開(kāi)查看,面對密密麻麻的日志文本,統計分析這些數據實(shí)在非常非常困難。所以,建議網(wǎng)站訪(fǎng)問(wèn)量比較大的站長(cháng)朋友,最好按小時(shí)生成網(wǎng)站日志,雖然生成文件多了點(diǎn),但更有利于網(wǎng)站日志的分析。
(四)了解蜘蛛抓取的時(shí)間段。
通過(guò)日常日志分析總結中,你會(huì )很奇妙的發(fā)現一件事,那就是蜘蛛會(huì )在每天的一個(gè)特定時(shí)間內在網(wǎng)站爬行抓取的很活躍,當我們了解到這樣的情況,我們就可以再特定的時(shí)間去更新網(wǎng)站內容,這個(gè)可以更加有效的讓蜘蛛抓取我們網(wǎng)站內容,從而達到一個(gè)秒收的效果。
(五)我們應該知道網(wǎng)站日志記錄的信息實(shí)際并不完整。
不知道各位站長(cháng)朋友,有沒(méi)有注意到,網(wǎng)站日志里很少出5xx的返回代碼。例如,500返回代碼表示服務(wù)器內部錯誤,503返回代碼表示服務(wù)不可用。各位站長(cháng)朋友都知道,5xx返回代碼一般意味著(zhù)網(wǎng)站服務(wù)器出了故障,一般情況下,服務(wù)器出了故障是無(wú)法生成網(wǎng)站日志的。換個(gè)說(shuō)法,當網(wǎng)站服務(wù)器宕機了,或者dns解析不了,所有人都無(wú)法訪(fǎng)問(wèn),蜘蛛也無(wú)法訪(fǎng)問(wèn),在這段時(shí)間里,網(wǎng)站日志肯定是無(wú)法記錄任何信息的。為了更好的監控網(wǎng)站情況,我個(gè)人建議大家去注冊并使用谷歌站長(cháng)管理工具,可以有效的記錄服務(wù)器訪(fǎng)問(wèn)錯誤信息。長(cháng)沙做網(wǎng)站