前面講完了設定,想要了解背後原理的可以繼續往下看
從頭開始了解什麼是 Search Console
Getting started with Search Console 這份文件 Step-by-step 帶你入門
開頭就告訴你,如果你想要強化 Google 搜尋你網站的能見度,那你就要花「一點」時間學習 SEO 跟 Search Console,以及花「一點」時間思考,如何組織與撰寫你的網站。
Google Search 運作的三階段
了解他們可以幫助你的網站更容易在 Google 被搜尋到
1. Crawling:
Googlebot (crawler) 要一直尋找新的或更新的網頁,將這些網頁加入已知網頁列表。
第一步:URL discovery
發現新頁面的方式有兩種:
Known Pages to Other Pages
有些頁面 Google 會知道,是因為他以前曾經拜訪過,他們會透過擷取這些已知頁面中的連結,去探訪新頁面!
Submit Sitemap to Discover Other Pages
主動提交 Sitemap ,也就是你的網頁清單,讓 Google 抓取。
2. Indexing:
第二步:將爬取內容建立 Index
網頁抓取後,Google 會進行索引,去嘗試理解你的網內容。方法是透過 HTML tag 或 attribute 像是
等。當然,如果你用的是 Googlebot 不認識的 tag 例如- ,他也是會滿頭問號,直接分類到 unknown tag,等於沒有用,好在 Hugo 架站不會有這些問題。
Canonical
相似的內容會被 group 在一起 (稱為 clustering,有點類似分類),如圖,他們都長得滿像。
這些被放在一起的 group 稱為 duplicate clustering
然後從這些頁面,比較他們計算的大量 signals,去選出 cananical version,也就是每一個 duplicate clustering 會選出一個最具代表性的內容當作搜尋結果。
Index Selection
Google 決定是否幫頁面建立索引的過程。當搜集 signals 並且丟棄一些複製頁面後,Google 會決定是否幫頁面建立 Index,這取決於頁面的 quality 或先前搜集來的 signals。
當決定幫某一個 canonical 建立 Index 後,Google 就會儲存該 canonical 的資訊,包含他的 cluster。說穿了 Google Index 就是超級大的資料庫,存一堆網頁內容,可以回傳你問的問題高度相關的結果。
高品質內容
跟搜尋關鍵字最相關
值得信賴
Interpreting query:搜尋,從翻譯用戶的查詢內容開始。
用戶查詢的內容,會被整理後,當作 Google Index 資料庫查找的關鍵字。
例如我搜尋
Google Search Console 是什麼?
這串查詢被整理後可能只會剩下
Google Search Console
是什麼?因此 Google Search Console 的 Index 就會被建立。
可想而知,你的網頁想要被搜尋到,你就要知道用戶會下什麼關鍵字,而你的網站,又會包含哪些 Index。
像我希望我的網站,可以被以下查詢搜尋到的話:
Google Search Console 是什麼 Google Search Console 是幹嘛用的 Google Search Console 原理
那最好就是,我的內文包含以上關鍵字被建立的 Index!
Ranking:排序結果
Google Index 資料庫會根據你查詢的 Index 回你一堆相關結果。
而這些結果的排序會被以下影響:
內容
地點
語言
裝置類型
其中
1.內容
最重要內容是基於品質決定的
而品質包含:
uniqueness of the contents
relative importance of the page on the Internet
…
洋洋灑灑一大堆,有興趣可以參考 reference 7
搜尋結果也會因為 Search Features 而被影響
像是搜尋腳踏車店,就很可能出現地點的搜尋結果,而非圖片;搜尋現代腳踏車,則你可能會看到一堆圖片。
讀到這邊就知道,嘗試為你的文章加上
標題
副標題
子標題
等…這些格式
或是
圖名:ATT4Fun 洗衣機拍貼行程
影名:ATT4Fun 洗衣機拍貼成品
然後為你的圖影命名,加上可辨識文字例如 ATT4Fun洗衣機拍貼行程.png
,會比沒有描述的 image.png ,在搜尋 🔍 ATT4Fun洗衣機拍貼機成品
更有機會被搜尋到,畢竟人家是抓文字啊~不要偷懶!!
別看了,還不快去把這些東西改掉,改成有意義的圖片檔名,如此可以讓 Googlebot 更好去為你的網站建立索引,所以不要懶惰 XD
終於知道怎麼讓搜尋時出現關鍵字相關圖片惹,部分原因是圖片名稱。
⚠️ 另外要特別注意
如果網站內容重複,則建立 Index 的時候,有機會因為 Canonical 機制而沒有被顯示在尋結果中。這很重要,所以,不要直接複製別人的文章,雖然我知道 Ctrl + C/ Ctrl + V 很好用。
名詞解釋
接著來講講,搜尋結果的 Serving & Ranking。
3. Serving search results:
第三步:將搜尋關鍵字最匹配的結果回傳給用戶
想了解你的網頁被搜尋到後,怎麼排 (Ranking) 到前面一點,就是這一 part 拉。
想像一下,如過你是設計搜尋引擎的人,你會把具備怎樣特質的網頁回傳給你的搜尋用戶?
….
所以你就要想辦法讓你的內容符合上述幾條規則拉!
接著是 Google Search 的運作過程:
了解 Google Search 運作原理後,再來想想你的網頁內容,到底要包含哪些關鍵字,而這些關鍵字能夠被 Google 建立 Index,在用戶 query 的時後,成為最能匹配的 query 結果。
補充
設定你的網站的爬蟲搜尋檔案 robots.txt
:
在看 Googlebot 文件的時候會一直看到 robots.txt
,他主要的功能是告訴搜尋引擎爬蟲你的網站有哪些 URLs 是允許訪問的。
其中有提到,如果你是用 CMS (Content Management System)例如 Blogger,就不用修改你的 robots.txt
,赫然想起當初會選 Blogger 寫文章的原因,就是因為查到他「不用額外設定」就可以被 Googlebot 爬到,原來文件記載在這裡呀~
另外讀者也不用擔心,如果你是參照《手把手打造你的專屬部落格之一 — Hugo 建立本地網站》,Hugo 也是 CMS 之一,所以不用額外設定 robots.txt
檔,可以參考Reference 8。
以下為查看方式:
在瀏覽器輸入 https://<你的網域名稱>/robots.txt:
https://skyaching.com/robots.txt
會看到:
User-agent: *
Disallow:
這代表所有搜尋引擎都可以爬取你的網站。
恭喜你了解了一些搜尋的底層邏輯拉 🎉