谷歌對于robots文件設置要求是什么?
今天是平哥SEO主講robots.txt日志文件設置。在上節課我們就了解到,robots文件規定了Googlebot要抓取一個網站頁面,首先就要先訪問robots文件,而且必須按robots.txt文件里的規矩辦事,那么今天我們就來詳細了解下如何設置robots日志文件。
一、robots.txt文件基礎理論
1、robots.txt工作原理
robots.txt是一個文件,主要是給各個搜索引擎抓取工具看的,里面用來設置一些規則,目的是告訴它們,哪些搜索引擎抓取工具能來抓取,哪些搜索引擎抓取工具不能來抓取,哪些頁面可以訪問,哪些頁面不能訪問。
2、robots.txt的好處
①、控制抓取工具預算
如果不了解抓取工具預算的朋友,這里大概解釋下,抓取工具預算就是抓取你網站所花費的時間和資源,也就是在有限的時間內,Googlebot抓取網站的頁面數量,并且這個預算值是可以變動的,所以有些seo,為了讓Googlebot抓取更多的重要頁面,他們會從而利用robots.txt來控制。
②、控制部分頁面和文件不被抓取
每個網站都有一些頁面不想被Googlebot抓取并索引。例如網站的管理后臺登錄及管理頁面、一些暫時性的內容頁面、PDF文件、視頻、圖片等等。
二、制作robots.txt文件
1、制作方法
①、如果你用的是一些CMS客戶管理系統,類似WordPress,shopify等建站工具,那么你就不需要制作這個文件,因為系統會默認生成這個文件,并且把相應的規則填寫好,如果你需要添加規則,直接點擊修改即可。
②、如果你網站的根目錄下面沒有這個文件,那請新建一個文件,文件名為:robots.txt的文本文檔,然后根據你網站的實際情況,添加相應的規則命令后,用ftp上傳到服務器網站根目錄就完成了。
備注:如果你想研究學習參考別人網站的robots.txt文件,也可以直接輸入他們的域名,加上文件名,例如:www.mingyuan360.com/robots.txt
需要注意的是,robots.txt文件和網站地圖不一樣,robots.txt只能以這個名字命名,同時一個站點有且只有一個robots.txt文件。
2、使用方法
個人覺得常用的就三大板塊和兩個通用符,下面我們通過一個例子來了解吧。
User-agent: Googlebot
allow: /
User-agent: Baiduspider
Disallow: /example1/
Disallow: /example2.html
Disallow: /*.jpg$
Sitemap: http://www.mingyuan360.com/sitemap.xml
I、“user-agent” :指的用戶代理,也就是各大搜索引擎抓取工具。
例如上面的案例中Googlebot和Baiduspider,分別為Google和百度的抓取工具。
不同的搜索引擎,不同的名稱,如果有特定要求可以查詢相關名稱。另外,如果需要區分開不同類型的抓取工具,可以參考上節課的內容。
II、“allow” ,“disallow” :指令是“允許抓取”和“不允許抓取”某些頁面路徑的意思。
通配符“*”表示匹配0或多個任意字符。
通配符“$”表示字符串的結束,用于結尾。
如上面案例中的,
·允許Googlebot抓取所有頁面
·不允許百度蜘蛛抓取example1欄目
·不允許百度蜘蛛抓取example2.html頁面
·不允許百度蜘蛛抓取網站所有jpg類型的圖片,包括圖片為example.jpg?p=12345的類型
III、Sitemap:這個是站點地圖的指令,類似提交網站地圖的效果,之前的第十課網站地圖全面解析課程里面有講,這里我們只需把所有的站點地圖加上就好。
今天就分享到這里,期待能幫助你!

