Google 檢索、索引、排名的原理規(guī)則是什么?
Google SEO中的爬取、索引跟搜索引擎排名,分別是什么意思呢?在學(xué)習(xí)SEO之前,必定要先了解一下谷歌搜索引擎的運作方式。從你的網(wǎng)站文章發(fā)布的那一瞬間,你的文章網(wǎng)址會經(jīng)歷:被找到、被爬取(檢索)、被索引,然后才能出現(xiàn)在Google搜索引擎里面并且加入Google搜索結(jié)果的排名。上面的這個過程,從網(wǎng)址被找到,一直到被爬取跟索引,然后再到開始在Google搜索引擎排名,這就是Google搜索引擎的運作方式。
了解Google搜索引擎的運作方式非常重要,因為Google在檢索、索引到搜索引擎排名的過程當中,有非常多的SEO知識在里面。例如Google檢索時是檢索哪些東西?Google索引時是索引哪些東西?當你的文章開始加入Google搜索引擎排名,文章的初始排名是怎么決定的?這中間隱含大量的SEO知識跟排名要素(Ranking factors)在里面。
如果你還不知道SEO中的爬取、索引跟排名的整個過程以及運作方式,本篇文章平哥SEO會做一個完整的介紹,讓你了解Google搜索引擎的基本運作原理。
Google搜索引擎的爬取、索引跟排名,是什么?
當一個新的網(wǎng)址出現(xiàn)的時候,它一定會經(jīng)歷「被找到」的過程,所以雖然我們可以將Google搜索引擎的運作方式分成:檢索(爬取)、索引跟排名,但其實前面還有一個「找到」網(wǎng)址的過程。
這里將網(wǎng)址被找到、爬取(檢索)、索引跟排名,簡單說明如下。
Google找到網(wǎng)址
當一個新頁面出現(xiàn)時,Google的爬蟲必然會先找到該網(wǎng)址,并且將該網(wǎng)址加入網(wǎng)址庫,然后比對一下網(wǎng)址庫里面是不是有這條網(wǎng)址,如果確認是新的網(wǎng)址,就會安爬時間去檢索(爬取)。
在Google Search Console里面的「涵蓋范圍」功能當中,你也可以清楚看到一條網(wǎng)址它的「發(fā)現(xiàn)方式」,可能是從你提交的Sitemap當中發(fā)現(xiàn)的,也有可能是從別的網(wǎng)址找到你這條鏈接的。
Google爬存(檢索)
當有新的網(wǎng)址出現(xiàn)在Google數(shù)據(jù)庫中的網(wǎng)址庫之后,就會安排時間去檢索,其實「檢索」是官方的名稱,熊貓先生也比較喜歡用「檢索」這個詞,不過在SEO界里,檢索很常被稱作「爬取」,你只要知道它們指的都是Crawl就可以了。無論是爬取還是檢索,都是指Crawl。
在Google search Console里面的「涵蓋范圍」功能,你也可以很清楚的看到關(guān)于「檢索」的訊息。下面有兩個重要的觀念:
是否允許檢索:如果顯示否,那么該網(wǎng)址可能是出現(xiàn)在robots.txt,也就是網(wǎng)站主在robots.txt這個檔案當中不允許檢索這條網(wǎng)址。
是否允許編入索引:如果顯示否,代表該網(wǎng)址很可能有noindex中繼標記,所以才會出現(xiàn)不允許給頁面被索引的訊息。
這里特別說明:robots.txt是用來告訴搜索引擎不要爬取特定頁面,而noindex則是用來告訴搜索引擎不要索引特定頁面。
當爬蟲程序爬取了你的頁面之后,會將整個網(wǎng)頁的信息壓縮并存入數(shù)據(jù)庫里面,在「檢索」階段,Google存入數(shù)據(jù)庫的信息就像是用戶打開瀏覽器時得到的HTML網(wǎng)頁,一直要到「索引」階段,才會將檢索的資料去蕪存菁,只索引重要的信息。
Google索引
Google在索引階段要處理的東西很多,因為Google不可能將你網(wǎng)頁上全部的HTML源代碼,或是各種文字都存入數(shù)據(jù)庫,這樣數(shù)據(jù)庫會變得過于龐大而沒有效益,所以Google「索引」階段肯定只會索引重要的東西,而這些東西會影響你這個網(wǎng)址之后在某個「關(guān)鍵字」的排名。
那么,Google到底索引了哪些東西?常見的會被索引的信息包含如下:
1.重要的關(guān)鍵詞
Google是如何提取頁面中的關(guān)鍵詞,這個只有Google內(nèi)部人員才知道,通常提取的關(guān)鍵詞可能也有10個以上,而且每個被提取出來的關(guān)鍵詞,其權(quán)重加總之后通常不一樣。
唯一可以肯定的是,頁面中的Meta title、H1、H2肯定是重點。這也是為什么很多SEO人都強調(diào)關(guān)鍵詞要出現(xiàn)在標題或是H2里面的重要性。
2.鏈接與錨文字
頁面中的鏈接與錨點文字也是會被索引的東西。
3.圖片Alt text
圖片當中的alt text,也是會被提取的文字。
4.關(guān)鍵字的文字大小(font-size)
根據(jù)Google的Pagerank原始文件,有特別提到,Google會提取關(guān)鍵字大約的文字大小,文字越大通常重要性也越高。
5.文章中的粗體字
粗體字通常是或是這樣的標簽,粗體字也會是被記錄的信息。
6.關(guān)鍵字在頁面中的位置
關(guān)鍵詞出現(xiàn)在頁面中的位置,也是會被記錄在索引數(shù)據(jù)庫里面。
除了上面提到的這幾點資訊以外,Google肯定還索引了其它東西,但很多東西是我們不知道的,這些被用來索引的東西,通常也可以視為SEO排名要素(Ranking factors)。
Google排名
當你的某個頁面網(wǎng)址被索引之后,基本上就已經(jīng)可以出現(xiàn)在Google搜索引擎里面并加入排名了。Google號稱有兩百多條SEO排名要素,這200多條排名要素都會在整個SEO關(guān)鍵詞排名中起到一定程度的作用,有些影響作用很大(例如反向鏈接),有些影響作用比較小(例如關(guān)鍵字出現(xiàn)在URL網(wǎng)址里)。
Google搜索引擎的運作原理
從上面你應(yīng)該已經(jīng)了解到,Google搜索引擎的運作原理,基本上就是四個階段:網(wǎng)址被找到、網(wǎng)址被爬取、網(wǎng)址被索引跟網(wǎng)址被排名。簡單的講,谷歌搜索引擎的運作原理有這四個階段。
網(wǎng)址被找到
爬取(又稱檢索)
索引(又稱收錄)
排名
從事SEO工作的人必須非常了解這四個階段的各種SEO細節(jié),你才能從中找到一些問題,例如以下幾個重點:
一個網(wǎng)址如果遲遲沒有被檢索,那會是什么原因?
一個網(wǎng)址如果遲遲沒有被索引,那會是什么原因?
關(guān)于Google搜索引擎的運作原理,其實Matt Cutts在Youtube網(wǎng)站上有一段視頻,講解的非常清楚,這段視頻建議一定要看。Matt Cutts的這段視頻清楚的解釋了:Google爬取、索引跟排名的過程。
在Google搜索引擎的關(guān)鍵詞排名的過程中,除了參考Google索引中的資料,另外還有Pagerank跟200多條SEO排名要素(注意:Google索引中的資料,有些本身就是排名要素)。
除了上面這只影片之外,Matt Cutts在另外一只影片,也提到了Google搜索引擎的運作方式,下面這只視頻也建議一定要看,你會對Google搜索引擎的運作原理與搜索引擎排名有更深的理解。
Google正向索引與倒序索引
在Google的「索引」過程當中,有件事特別重要,那就是「正向索引」跟「倒序索引」,如果不是具有理工背景的人,可能很難理解這兩個概念。
下面分別解釋Google索引中的正向索引與倒序索引。
正向索引
每個網(wǎng)址都被指派一個獨一無二的DocID,這個數(shù)據(jù)表中儲存著該網(wǎng)頁的重要關(guān)鍵詞。
倒序索引
Google透過正向索引的數(shù)據(jù),改變其索引方式,換成以關(guān)鍵字為鍵值的數(shù)據(jù)表,每個數(shù)據(jù)列都有一個KeywordID,每個KeywordID里面包含著重要的網(wǎng)址(DocID)。
當用戶在Google搜索關(guān)鍵詞的時候,Google會去調(diào)用倒序索引里面的資料,這樣查詢速度才會快,因為如果使用正向索引資料表,這樣查詢會變得超級慢,因為網(wǎng)路上有上百億個網(wǎng)頁,這計算時間實在太過龐大,這也是為什么原本的正向索引必須改成倒序索引的原因。
掃描二維碼推送至手機訪問。
版權(quán)聲明:本文由【平哥SEO學(xué)堂】整理發(fā)布,如需轉(zhuǎn)載請注明出處。




