為什么要控制Googlebot抓取速度?
有時會很高興地看到,Google幾乎是在瞬間抓取您的網(wǎng)站。但這對于大多數(shù)網(wǎng)站來說不是必需的,因為內(nèi)容可能每天更新一次,甚至更長的時間間隔。在內(nèi)容沒有更新的這種情況下,搜索引擎爬蟲或機器人繼續(xù)在網(wǎng)站上尋找更新是沒有意義的。
在本文中,我們將了解您為什么要控制Googlebot以及如何控制Googlebot和其他搜索引擎爬蟲的抓取速度。
為什么要控制Googlebot抓取速度?
當(dāng)您有多個站點或更大的站點時,搜索引擎機器人的持續(xù)爬取將對服務(wù)器性能產(chǎn)生不利影響。因此,有必要控制爬取您網(wǎng)站的機器人的爬取速率,而Googlebot是您在許多情況下應(yīng)該控制的第一個。
- 無論是搜索引擎機器人還是真實用戶,都會使用您的服務(wù)器資源。
- 高爬取率將導(dǎo)致高CPU利用率,最終可能需要為額外資源支付更多費用。在共享托管環(huán)境中,您的主機可能會停止服務(wù)以保護托管在同一服務(wù)器上的其他站點。
- 當(dāng)Googlebot抓取網(wǎng)站時,網(wǎng)站上的真實用戶可能會感到緩慢。特別是當(dāng)您擁有電子商務(wù)網(wǎng)站時,必須控制Googlebot和其他經(jīng)常抓取的機器人。
如果您的網(wǎng)站較小且流量有限,您可能不會看到機器人有任何問題。當(dāng)您有多個站點每天吸引成千上萬的訪問者時,您會注意到由于爬蟲的活動導(dǎo)致CPU使用率猛增。當(dāng)CPU利用率很高時,您可能會收到來自托管公司的警告消息,或者您的帳戶將被暫停,要求您采取必要的措施。
如何監(jiān)控Googlebot?
有兩種方法可以監(jiān)控Googlebot的抓取活動。一種是從您的Google Search Console中進行檢查,另一種是從您的托管帳戶進行監(jiān)控。
登錄到您的Google Search Console帳戶并導(dǎo)航到“設(shè)置”,然后抓取>抓取統(tǒng)計信息>打開報告。在這里,您可以查看過去90天時間范圍內(nèi)的Googlebot活動。您將看到三個圖表——每天抓取的頁面、每天下載的千字節(jié)以及下載頁面所花費的時間(以毫秒為單位)。這些圖表將讓您全面了解Googlebot在您的網(wǎng)站上所做的事情。
Googlebot在您的網(wǎng)站上抓取數(shù)據(jù)統(tǒng)計
第二種也是最有效的方法是通過您的主機帳戶監(jiān)控服務(wù)器上的活動。登錄到您的托管帳戶并查找其中一種統(tǒng)計報告工具。在這種情況下,我們使用幾乎所有共享托管服務(wù)提供商(如Bluehost、SiteGround等)提供的Awstats進行解釋。
打開Awstats應(yīng)用程序并選擇您的站點以查看統(tǒng)計信息。在“Robots / Spider visitors”部分查看最活躍的機器人列表。
從Awstats監(jiān)控機器人
您還可以使用WordFence等插件來監(jiān)控實時流量和Googlebot活動。
當(dāng)然,我們的蜘蛛分析插件也可以實現(xiàn)爬蟲統(tǒng)計及行為分析,安裝啟用插件后,當(dāng)然是統(tǒng)計了一段時間的數(shù)據(jù),點擊蜘蛛分析>蜘蛛概況,然后選擇最近30天,在趨勢圖下列菜單選擇為Googlebot,即可查看Googlebot最近30天URL爬取的數(shù)量。
如何控制Googlebot的抓取速度?
當(dāng)您注意到Googlebot正在抓取您的網(wǎng)站并消耗大量帶寬時,就該控制抓取速度了。一些托管公司通過在robots.txt文件中添加條目來自動控制抓取延遲。您可以從Google Search Console手動控制Googlebot的抓取速度。登錄到您的Search Console帳戶后,打開您的資源的抓取速度設(shè)置頁面,選擇您需要設(shè)置谷歌蜘蛛爬取速度的網(wǎng)站。
在Google Search Console中訪問抓取控制設(shè)置
您將在“抓取速度”部分看到兩個選項。
Googlebot抓取速度控制
- 讓Google優(yōu)化我的網(wǎng)站(推薦)
- 限制Google的最大抓取速度
選擇第二個單選按鈕并將進度條向下拖動到任何所需的速率。這將設(shè)置每秒的請求數(shù)和抓取請求之間的秒數(shù)。
注:除非谷歌爬取導(dǎo)致您的網(wǎng)站性能下降嚴重,否則完全沒必要修改谷歌爬蟲的爬取速度,這一塊的控制,谷歌做得相當(dāng)優(yōu)秀。
新的抓取速度設(shè)置將在90天內(nèi)有效,并在到期后自動重置為第一個選項“讓Google為我的網(wǎng)站進行優(yōu)化”。
必應(yīng)呢?
與Googlebot類似,您也可以在Bing Webmaster Tools下限制Bingbot。登錄到您的帳戶后,導(dǎo)航到“配置 > 爬網(wǎng)控件”,即可進行相關(guān)的設(shè)置。
必應(yīng)網(wǎng)站管理員工具中的抓取控制
通過選擇圖表上的藍色框來調(diào)整抓取速度。
其他搜索引擎爬蟲
除了Google和Bing,還有許多其他機器人可以抓取您的網(wǎng)站。您可以使用通用.htaccess指令阻止所有其他機器人。在您的.htaccess文件中添加以下代碼以阻止除Google、Bing、MSN、MSR、Yandex和Twitter之外的所有機器人。所有其他機器人將被重定向到本地主機IP地址 127.0.0.1。
#Disable bad bots RewriteEngine On RewriteCond %{HTTP_USER_AGENT} ^$ [OR] RewriteCond %{HTTP_USER_AGENT} (bot|crawl|robot) RewriteCond %{HTTP_USER_AGENT} !(bing|Google|msn|MSR|Twitter|Yandex) [NC] RewriteRule ^/?.*$ "http://127.0.0.1" [R,L]
您還可以通過IP地址攔截方式部分蜘蛛的訪問和爬取拒絕。
小結(jié)
有必要監(jiān)視和控制您網(wǎng)站上的爬蟲活動,以便將托管服務(wù)器的CPU利用率保持在允許的范圍內(nèi)。我們已經(jīng)解釋了一些方法,還有許多其他方法可以阻止壞機器人。與您的主機討論并確保您做正確的事情并且只阻止不良機器人也是一個好主意。
最后,小編的建議是,如國內(nèi)站長,像谷歌、百度、bing及搜狗等搜索引擎的蜘蛛訪問爬取,非必要情況盡可能不要去干預(yù)。倒是一些不知名蜘蛛爬蟲,我們應(yīng)該盡可能將它們拒之門外,以免浪費服務(wù)器資源(這可以通過蜘蛛統(tǒng)計分析插件,實現(xiàn)智能攔截)。
版權(quán)聲明:
本站所有文章和圖片均來自用戶分享和網(wǎng)絡(luò)收集,文章和圖片版權(quán)歸原作者及原出處所有,僅供學(xué)習(xí)與參考,請勿用于商業(yè)用途,如果損害了您的權(quán)利,請聯(lián)系網(wǎng)站客服處理。