網(wǎng)站頻繁出現(xiàn)304狀態(tài)碼的原因
經(jīng)常會碰到站長們抱怨蜘蛛抓取返回碼老是304狀態(tài),且抓取的次數(shù)越來越少的問題。搜索引擎為了自身的用戶體驗,會想盡辦法來提高檢索調用率、準確性、新鮮度,這將導致引擎不得不把主要的精力放在擁有優(yōu)質內容源的網(wǎng)站上。惟其如此,搜索結果的質量才能更加符合搜索者的體驗。
由此我們聯(lián)想到:搜索引擎爬蟲會更加青睞內容源更新頻繁的網(wǎng)站。通過特定時間內對網(wǎng)站抓取返回的狀態(tài)碼來調節(jié)對該網(wǎng)站的抓取頻繁。若網(wǎng)站在一定時間內一直處于[304:沒有變化]的狀態(tài),那么引擎爬蟲可能會降低對網(wǎng)站的抓取次數(shù)。相反,若網(wǎng)站變化的頻率非常之快,每次抓取都能獲取新版本,那么日積月累,爬蟲的回訪率也會提高。
無論是抓取少還是304,這都是一種現(xiàn)象,并不是問題的原因,假設網(wǎng)站返回的都是200,就能達到提升排名帶來流量的目的么?相比之下更應該思考產(chǎn)生304的原因是什么?改304對網(wǎng)站目標能夠有什么樣的效果?不能忽視整體的目標而強調過程的細節(jié),為了200而去解決304。
304狀態(tài)是如何產(chǎn)生?
服務器為了提高網(wǎng)站訪問速度,對之前訪問的部分頁面制定緩存機制,當客戶端在此對這些頁面進行請求,服務器會根據(jù)緩存內容判斷頁面與之前是否相同,若相同便直接返回304,此時客戶端調用緩存內容,不必進行二次下載,可以說304從某種角度起到了減少服務器帶寬并提高蜘蛛爬行效率的作用。
304狀態(tài)產(chǎn)生原因?
1、頁面更新周期長或不更新
2、純靜態(tài)頁面或強制生成靜態(tài)html
304狀態(tài)處理思路?
1、先對產(chǎn)生304頁面進行細分,到底是哪類頁面返回了304?這些頁面是否應該返回304?
2這些頁面生成的方式是怎樣的?是否有更新機制?更新機制是否符合蜘蛛對網(wǎng)站的抓取頻率?
3、頁面更新區(qū)域的位置是否合理?是否位于該頁面主要內容的承載區(qū)
304狀態(tài)碼出現(xiàn)過多會造成以下問題:
1、網(wǎng)站快照停止
2、收錄減少
3、權重下降
那么如何減少304返回碼呢?
據(jù)我所知,首先內容更新方面要迎合百度蜘蛛,分析日志,把蜘蛛到訪的時間記錄下來,可以大致得出蜘蛛到訪的頻率,然后以此為依據(jù),更新文章:一定是原創(chuàng)+轉載,不能純采集。轉載也需要最新最好的優(yōu)質資源。讓蜘蛛這個點過來能有吃的。從而返回更多 200 正常碼。
其次呢,最好增加個互動版塊,現(xiàn)在大網(wǎng)站基本已經(jīng)都做了這方面,比如評論、留言等,大網(wǎng)站更新起來變化可能會很小,但是有了這些互動,用戶會在上面發(fā)些內容,網(wǎng)站會有很多新的東西。