亚洲欧美成人综合一区_国产精品一区二区无码_亚洲风情偷拍区_成?人免费无码视频在线看

在線客服與您一對一交流
當前位置: 主頁 > 行業(yè)新聞 > seo >

使用Robots.txt引導百度爬蟲合理分配抓取資源

  我所在的網(wǎng)站算是一個大型網(wǎng)站,百度收錄3000萬,每天百度爬蟲抓取總次數(shù)在500w次左右,單頁的百度收錄率 80%,看起來已經(jīng)是一個相當不錯的數(shù)據(jù),但分析一下詳細的日志文件,還是可以發(fā)現(xiàn)一些問題,

  1.大型網(wǎng)站的列表頁為了方便用戶查找所需信息,通常會設置多重的篩選條件(Facet Navigation),但爬蟲并沒有智能到可以自主判斷哪些條件可以組合,哪些條件組合起來沒有意義,只要在代碼里面有鏈接就會去抓取,導致百度爬蟲耗費了大量資源在列表篩選頁上。分析了一個月的數(shù)據(jù),發(fā)現(xiàn)百度的抓取量有30%消耗在列表頁,但是列表頁帶來的百度自然流量僅占所有百度自然流量的2%,所以對網(wǎng)站的列表頁來說,爬蟲的投入產(chǎn)出非常低。西安網(wǎng)站多少錢,西安網(wǎng)絡公司推薦閱讀>>> 禁止搜索引擎收錄的方法,

  2.重復抓取現(xiàn)象嚴重。 我個人覺得,對網(wǎng)站來說,只被爬蟲抓取過1次的頁面(Distinct Crawl)最有價值,因為對一張本身內(nèi)容質(zhì)量還可以的頁面來說,只要被抓取過一次,收錄的幾率就超過80%。如果頁面本身質(zhì)量不行,即使被抓取過幾十次,也依然不會被收錄。 繼續(xù)分析我們網(wǎng)站的數(shù)據(jù),發(fā)現(xiàn)在百度爬蟲一天500w的抓取中,有超過一半的抓取是對相同頁面的多次抓取,如果能把這些重復的抓取轉(zhuǎn)移到那些一次都沒被抓過的頁面上,對網(wǎng)站的價值無疑更大。網(wǎng)站制作公司西安,做網(wǎng)站推薦閱讀>>> 被黑和站點安全,

  如何解決這兩個問題?

  先說第一個,針對篩選頁消耗爬蟲資源問題,很多人都建議使用nofollow標簽告訴爬蟲,不要繼續(xù)給這些頁面分配權重,我們也這么做過。但事實證明百度爬蟲對nofollow并不敏感,使用之后爬蟲依舊瘋狂抓取,同時也沒有把權重從篩選頁面上轉(zhuǎn)移到規(guī)范頁面上。

  無奈之下,我們只好考慮起用SEO的大殺器:Robots文件,把所有的篩選頁面全部disallow掉,之前沒有使用robots禁止抓取的原因是擔心萬一爬蟲被禁止抓取列表后,會不會其他的頁面也不抓了?畢竟列表篩選頁還是會給單頁貢獻大量入口,但基于我們網(wǎng)站單頁收錄還不錯的現(xiàn)狀,還是決定嘗試一下。西安網(wǎng)站建設推薦閱讀>>> 巧用robots避免蜘蛛黑洞-百度站長平臺資訊,

  事實證明,效果非常明顯,新版的robots上線三天后,列表頁的爬蟲抓取量下降到15%;同時之前擔心的問題也沒有發(fā)生,爬蟲的抓取總量不但沒有下降,反而增長了10%左右,單頁的抓取量也上升了20%,可以算是達到了我們的預期目標:把列表頁浪費的爬蟲資源轉(zhuǎn)移到其他需要被抓取的頁面上。

  但是如何證明抓取資源是被轉(zhuǎn)移到需要被抓取的頁面上呢,這正好也是之前提到的第二個問題,我們看了唯一抓取率( 只抓一次的頁面數(shù)/總抓取數(shù))的變化,從50%增長到74%,可以說明爬蟲在閱讀robots文件后,對爬蟲資源做了更合理的分配,更多的單頁被抓取。西安做網(wǎng)站推薦閱讀>>> 帶你玩轉(zhuǎn)robots協(xié)議,新手必備,

  總結(jié):Robots文件相比其他手段,可以在較短時間內(nèi)優(yōu)化百度爬蟲的抓取資源分配,但這得建立在網(wǎng)站本身結(jié)構(gòu)良好,內(nèi)容過關的基礎之上,同時最重要的還是得反復測試,通過日志分析實際情況來調(diào)整以取得最佳效果 轉(zhuǎn)自百度站長社區(qū)

相關文章:

  • User-agent: * Disallow: / Allow: /complain/ Allow: /media_partners/ Allow: /about/ Allow: /user_agreement/ User-agent: ByteSpider Allow: / User-agent: ToutiaoSpider Allow: / 以上是今日頭條的robots.txt,禁止所有搜索引擎收錄,同時又...

  • 有同學問百度站長學院一個關于robots的問題:我們有個站點的目錄結(jié)構(gòu)使用的是中文,這樣式兒的:www.a.com/冒險島/123.html,那在制作robots文件和sitemap文件的時候,可以直接使用中文嗎?百度能...

  • robots文件是搜索生態(tài)中很重要的一個環(huán)節(jié),同時也是一個很細節(jié)的環(huán)節(jié)。很多站長同學在網(wǎng)站運營過程中,很容易忽視robots文件的存在,進行錯誤覆蓋或者全部封禁robots,造成不必要損失! 那...

  • 目前百度圖片搜索也使用了與百度網(wǎng)頁搜索相同的spider,如果想禁止Baiduspider抓取網(wǎng)站上所有圖片、禁止或允許Baiduspider抓取網(wǎng)站上的某種特定格式的圖片文件可以通過設置robots實現(xiàn):西安廣告...

  • 對于百度搜索引擎來說,蜘蛛黑洞特指網(wǎng)站通過極低的成本制造出大量參數(shù)過多、內(nèi)容類同但url不同的動態(tài)URL ,就像一個無限循環(huán)的黑洞,將spider困住。spider浪費了大量資源抓取的卻是無效網(wǎng)...

  • robots是站點與spider溝通的重要渠道,站點通過robots文件聲明該網(wǎng)站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。請注意,僅當您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容...

  • 親愛的網(wǎng)站管理員, 很高興的告訴大家,百度站長平臺 robots 工具全新升級,升級后能夠?qū)崟r查看網(wǎng)站在百度中已生效的的robots文件,并支持對robots進行語法及邏輯校驗,有助于站長更清晰的...

  • 資料一 1.robots.txt文件是什么 robots.txt是一個純文本文件,是搜索引擎中訪問網(wǎng)站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務器上什么文件是可以被查看的。每個站點最好建立...

  • robots.txt文件包含一條或更多的記錄,這些記錄通過空行分開(以CR,CR/NL, or NL作為結(jié)束符),每一條記錄的格式如下所示: field:optional spacevalueoptionalspace 在該文件中可以使用#進行注解,具體使...

  • 搜索引擎通過一種程序robot(又稱spider),自動訪問互聯(lián)網(wǎng)上的網(wǎng)頁并獲取網(wǎng)頁信 息。您可以在您的網(wǎng)站中創(chuàng)建一個純文本文件robots.txt,在這個文件中聲明該網(wǎng)站中不想被robot 訪問的部分,這...

  • 公司:西安蟠龍網(wǎng)絡科技有限公司
  • 聯(lián)系人:張經(jīng)理
  • 手機/微信:
  • Q Q: 點擊這里給我發(fā)消息
  • 地址:西安市雁塔區(qū)唐延南路11號逸翠園i都會