<listing id="wqhwk"><menu id="wqhwk"></menu></listing>

<listing id="wqhwk"><dfn id="wqhwk"></dfn></listing>

    <small id="wqhwk"><dfn id="wqhwk"></dfn></small>
  1. <listing id="wqhwk"><dfn id="wqhwk"><p id="wqhwk"></p></dfn></listing>
    <tt id="wqhwk"><ol id="wqhwk"><em id="wqhwk"></em></ol></tt>

    百度蜘蛛抓取流量暴增的原因

    Spider對網站抓取數量突增往往給站點帶來很大煩惱,紛紛找平臺想要Baiduspider IP白名單,但實際上BaiduSpider IP會隨時變化,所以并不敢公布出來,擔心站長設置不及時影響抓取效果。百度是怎么計算分配抓取流量的呢?站點抓取流量暴增的原因有哪些呢?

    總體來說,Baiduspider會根據站點規模、歷史上網站每天新產出的鏈接數量、已抓取網頁的綜合質量打分等等,來綜合計算抓取流量,同時兼顧站長在抓取頻次工具里設置的、網站可承受的最大抓取值。

    從目前追查過的抓取流量突增的case中,原因可以分為以下幾種:

    1, Baiduspider發現站內JS代碼較多,調用大量資源針對JS代碼進行解析抓取

    2, 百度其他部門(如商業、圖片等)的spider在抓取,但流量沒有控制好

    3, 已抓取的鏈接,打分不夠好,垃圾過多,導致spider重新抓取

    4, 站點被攻擊,有人仿冒百度爬蟲(見下文關于BaiduSpider)

    如果站長排除了自身問題、仿冒問題,確認BaiduSpider抓取流量過大的話,可以通過百度的反饋中心(http://zhanzhang.baidu.com/feedback)反饋,注:一定要提供詳細的抓取日志截圖。

    關于BaiduSpider

    如何正確識別Baiduspider移動ua

    新版移動ua:

    Mozilla/5.0 (Linux;u;Android4.2.2;zh-cn;)

    AppleWebKit/534.46 (KHTML,like Gecko)

    Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

    PC ua:Mozilla/5.0(compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

    之前通過“+http://www.baidu.com/search/spider.html”進行識別的網站請注意!需要修改識別方式,新的正確的識別Baiduspider移動ua的方法如下:  

    1. 通過關鍵詞“Android”或者“Mobile”來進行識別,判斷為移動訪問或者抓取?! ?br />
    2. 通過關鍵詞“Baiduspider/2.0”,判斷為百度爬蟲。

    另外需要強調的是,對于robots封禁,如果封禁的agent是Baiduspider,會對PC和移動同時生效。即,無論是PC還是移動Baiduspider,都不會對封禁對象進行抓取。之所以要強調這一點,是發現有些代碼適配站點(同一個url,PC ua打開的時候是PC頁,移動ua打開的時候是移動頁),想通過設置robots的agent封禁達到只讓移動Baiduspider抓取的目的,但由于PC和移動Baiduspider的agent都是Baiduspider,這種方法是非常不可取的。

    如何識別百度蜘蛛

    百度蜘蛛對于站長來說可謂上賓,可是也有站長會發出這樣的疑問:

    我們如何判斷瘋狂抓我們網站內容的蜘蛛是不是百度的?

    其實站長可以通過DNS反查IP的方式判斷某只spider是否來自百度搜索引擎。根據平臺不同驗證方法不同,如linux/windows/os三種平臺下的驗證方法分別如下:

    1、在linux平臺下,可以使用hostip命令反解ip來判斷是否來自Baiduspider的抓取。Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名,非*.baidu.com或*.baidu.jp即為冒充。



    2、在windows平臺或者IBMOS/2平臺下,可以使用nslookupip命令反解ip來判斷是否來自Baiduspider的抓取。打開命令處理器輸入nslookupxxx.xxx.xxx.xxx(IP地址)就能解析ip,來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名,非*.baidu.com或*.baidu.jp即為冒充。

    3、在macos平臺下,您可以使用dig命令反解ip來判斷是否來自Baiduspider的抓取。打開命令處理器輸入digxxx.xxx.xxx.xxx(IP地址)就能解析ip,來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名,非*.baidu.com或*.baidu.jp即為冒充。

    Baiduspider IP是多少

    即便很多站長知道了如何判斷百度蜘蛛,仍然會不斷地問“百度蜘蛛IP是多少”。并想將百度蜘蛛所在IP加入白名單,只準白名單下IP對網站進行抓取,避免被采集等行為。

    百度方面表示,不建議站長這樣做。雖然百度蜘蛛的確有一個IP池,真實IP在這個IP池內切換,但無法保證這個IP池整體不會發生變化。所以,建議站長勤看日志,發現惡意蜘蛛后放入黑名單,以保證百度的正常抓取。

    同時,百度方面還強調:通過IP來分辨百度蜘蛛的屬性是非??尚Φ氖虑?,所謂的“沙盒蜘蛛”“降權蜘蛛”等等是從來都不存在的。
    ?
    聯系我們
    contact us
    • 手 機 : 0395-5568518
    • 電 話 : 0395-5568518
    • 郵 箱 : 12576219@qq.com
    • 總 部 : 漯河市人民路與文化路昌建廣場3號樓12層
    服務項目
    Service Items
    關于易搜
    About YISHOU
    漯河市易搜網絡科技有限公司專業從事網站SEO優化、網站建設、品牌推廣及互聯網應用開發的專業公司,我們致力于網絡營銷全方位發展,立足于網站優化及建設為核心,以WEB應用開發及服務為發展戰略的經營理念,在互聯網營銷的大環境下積累了深厚的經驗并取得了良好的口碑成績。

    易搜網絡咨詢微信

    Copyright ? 漯河易搜網絡科技有限公司. Powered by vancheer        豫ICP備17031637號-1
    聯系我們
    av色国产色拍
    <listing id="wqhwk"><menu id="wqhwk"></menu></listing>

    <listing id="wqhwk"><dfn id="wqhwk"></dfn></listing>

      <small id="wqhwk"><dfn id="wqhwk"></dfn></small>
    1. <listing id="wqhwk"><dfn id="wqhwk"><p id="wqhwk"></p></dfn></listing>
      <tt id="wqhwk"><ol id="wqhwk"><em id="wqhwk"></em></ol></tt>