fbpx

SEO關鍵字設定、密度和相關性的基礎理論及概念

關鍵字相關性的基礎理論是 TF-IDF。搜尋引擎希望從頁面出現的關鍵字密度決定和內容的相關性有多大。關鍵字在網頁出現的頻率就是 TF (Term Frequency)。SEO計算相關性的算法是以 TF-IDF 為基礎。關鍵字設定需要了解這些基本概念。搜尋引擎優化如果只是機械式的說該做什麽不做什麽,例如:將焦點關鍵字設定放在標題一,關鍵字在首段重覆出現三次等等 ,會是何等枯燥死板乏味。

過去二十年搜尋引擎優化是圍繞關鍵字為基礎,理由是電腦無法有效分析自然語言輸入,從而理解搜尋用戶的目的,退而求其次依賴搜尋用戶輸入簡單片語作為導向。關鍵字研究 Keyword Research 是指利用工具,例如 :Google Adwords Planner 分析個別關鍵字的搜尋量和競爭度,得出來的一籃子關鍵字會根據和內容的相關性被分配到網站內不同網頁用作焦點關鍵字。

關鍵字的基本概念

多了解一些基本概念和基礎理論會令搜尋優化變得更有趣味。例如:關鍵字密度的基礎理論是 TF-IDF。搜尋引擎希望從頁面出現的關鍵字密度決定該和內容的相關性 Relevance 有多大。用淺白語言排除數學其實不難理解:

關鍵字在網頁出現的頻率就是 TF (Term Frequency)。如果關鍵字 K 在網頁出現4次, TF 值看似應該是4。

SEO關鍵字

問題是如果A頁的內容長度是 B頁的兩倍,某關鍵字 K 在A頁的出現次數是B頁兩倍時就不能斷言關鍵字 K 與A頁更相關。所以 TF 被修正為: 出現次數 / 長度。例如,出現4次文件章度為100個字:

TF 值 = 4 / 100 = 0.04

問題是例如一編介紹 “網上生意” 文章的描述中,有些字像 “客戶”,”網上” 的 TF 就顯然要比 “網上生意” 的 TF 為高。但說該文章跟 “網上” 或 “生意” 的相關性較 “網上生意” 為高,明顯違反常識。當文章是談論 “網上生意”,”雲端運算”,”網上繳費”,”網上教學”等等時 “網上” 都很可能被提及。結論是 “網上” 一詞是一般文章中更普遍出現。單純利用 TF 計算相關性會出現以上的偏差。

解決的方法是對愈普及的關鍵字給出愈低的權重 Weight,倒如在 10,000 文章中關鍵字 “網上” 出現 100 次,權重變成倒數 (所以叫 IDF 或 Inverse Document Frequency) 10,000/100 = 100 , 如關鍵字 “網上推廣” 在 10,000 文章中出現一次,權重變成 10,000/1 = 10,000. 為了令這權重值變化不要太急,所以以 log base 10 計算。

“網上” IDF 值 = log (10,000 / 100) = 2

“網上推廣” IDF 值 = log (10,000 / 1) = 5

將 TF 乘以 IDF 就是相關性的評分。當然今天的搜尋引擎採用的 TF-IDF 更複雜,但原理是一樣。Google 搜尋引擎計算關鍵字相關性的算法是以 TF-IDF 為基礎,但已經進化到更為先進。除了 Google 內部從事 SEO 研究的資深工程師外,外面從事搜尋引擎優化的人只能根據一些如專利申請和 Google 人員不同埸合的闡述等符嘗試理解其中的精萃。


長尾關鍵字 IDF

長尾關鍵字 Long tail keyword 指基於通用關鍵字在前或在後或同時在前後加入更多字眼作更精準標示所要找的產品、服務或資訊,長尾關鍵字 IDF 值高。例如:“大碼衣服婚禮用”,“防敏感化妝品”等等。長尾關鍵字特色是搜尋量小,但同時提供和該關鍵字相關的產品、服務或資訊的網站亦小,所以該長尾關鍵字的搜尋排名競爭亦小,更容易獲得高搜尋排名。


焦點關鍵字

焦點關鍵字 Focus Keyword 指網頁內容是以該關鍵字為爭取排名目標,焦點關鍵字 IDF 值低。所以在頁內重要的元素中會加入該焦點關鍵字以便通知搜尋引擎:網頁內容和焦點關鍵字的相關性。搜尋優化工具如 Yoast SEO, SEOpressor 的排名優化建議都需要先設定焦點關鍵字。一般網頁內容只應瞄準一兩個焦點關鍵字,否則可能造成文理不通,降低可讀性。


單頁相關還是多頁相關

某些網站接受遊客發帖 Guest Posting, 單獨一個頁面和某關鍵字有高相關性不及和好幾頁面展現高相關性來得重要。利用 ITF 可以偵測到整個網站 (或者更正確是整個網站中被搜尋引擎索引的頁面) 和某關鍵字的相關性。例如 “韓國時裝” 在一般網站的 ITF 是 0.0003,即是在一萬頁中只有3頁提及,而某網站是 0.05,即一百頁中有五頁提及,就表示該網站以 “韓國時裝” 為主題的可能性極高。也就是該網站對 “韓國時裝” 的權威性高,亦即是 Google Rater Guideline 所闡述優質內容 E.A.T 裏內的 A,代表  Authority。搜尋引擎是偏好來自權威性高的內容。


直接相關還是間接相關

關鍵字有同義詞 Synonyms。例如:教員、教師、老師代表非常接近甚至完全相同的概念或事物。當網頁或網站和關鍵字 A 的相關性高,而關鍵字 B 是關鍵字 A 的同義詞時,就間接引證該網頁或網站和關鍵字 B 的相關性亦高。但由於是間接相關,所以網頁對搜尋輸入關鍵字 B 的排名評分會略低於對直接相關的關鍵字A。

應該是直接相關還是間接相關取決於地理位置文化差異。有些同義詞是由於文化地理差異引起,例如 “moggie” 是英國人對混種家貓的稱呼,亦就是一般我們都叫 “cat”. 隨著手機普及可以更準確判斷用戶的地理位置,英國用戶輸入 “moggie” 可以判斷為貓 (搜尋引擎很可能判斷與 “cat” 為直接相關),但中國用戶輸入 “moggie” 就不一定 (搜尋引擎很可能判斷與 “cat” 為間接相關)。

關鍵字的繁簡轉換亦可以看成間接相關,所以你會看到輸入繁體關鍵字時亦有時會出現簡體排名結果。但亦是由於間接相關,所以排名計分稍為不利。


潛在詞義的相關性

隨著手機愈趨普及,語音搜尋 Voice Search 使用量會大幅增加。當用戶慢慢發現原來搜尋引擎對自然語音輸入的理解原來不差時,搜尋用戶行為亦會改變,放棄以片語式關鍵字輸入而改為更自然的句子。RankBrain 的出現就是為了處理更複雜的詞意含義,通過利用人工智能 AI 理解潛在含意而將用戶的搜尋輸入和隱含的關鍵字搭出關係。例如用戶查詢:PDF 有什麽弊端,通過 RankBrain 潛在詞義分析轉化為 “PDF 保安”。


LSI 和 Proximity

單一詞語代表的意義有時非常含糊。例如 “蘋果” 代表水果亦廣泛指美國一家上市公司。所以確切的相關性判斷需要看上文下理,例如如果網頁是關於水果蘋果,很可能同時在內文中找都關於食品的關鍵字,例如 “健康”,“味道”。如果是關於蘋果公司,就可以找到關鍵字如 “公司”,流行産品如 “iPhone” 等等。又例如 “心理輔導” 的資料,多數會提及 “情緒” 這個詞。英文 Lincoln 可以是人名,可以代表汽車,可以代表美國總統。潛在語義索引 Latent Semantic Indexing (LSI) 是指搜尋引擎根據上文下理所出現的其他相關詞彙判斷關鍵字的相關性。而這些相關的關鍵字應該出現在主關鍵字不太遠的地方,相隔愈遠代表兩者關係愈弱。


關鍵字密度

從以上的理論介紹中你看到為多幾個的關鍵字出現次數對搜尋引擎判斷相關性沒有大幫助,反而一些長尾的關鍵字可能更有利 IDF 權重計分。
SEO關鍵字密度

由於關鍵字密度已經被濫用。今時今日,關鍵字出現在網頁的密度已經變得不重要。代之已起的是更看重 LSI 暗視式的相關性出現頻率。理解關鍵字基本概念後下一步就是如何選關鍵字


關鍵字位置

關鍵字位置 Keyword Position 指關鍵字在不同元素中出現位置對搜尋排名的影響,特別是當元素出現在有長度限制的地方,例如標題。一般出現位置是愈前愈好,但有時將關鍵字放在前面可能造成文理不通,又會降低搜尋用戶點擊意慾。

如果您有興趣了解更多,可以考慮報名參考我們的SEO優化課程。

[初稿發佈於 2015 年 6月2日]
Facebook Comments
摘要
SEO 關鍵字設定,關鍵字密度和相關性的基礎理論以及一些基本概念
文章名稱
SEO 關鍵字設定,關鍵字密度和相關性的基礎理論以及一些基本概念
描述
關鍵字密度的基礎理論是 TF-IDF。搜尋引擎希望從頁面出現的關鍵字密度決定該關鍵字和內容的相關性有多大。關鍵字在網頁出現的頻率就是 TF (Term Frequency)。SEO 計算關鍵字相關性的算法是以 TF-IDF 為基礎。關鍵字設定需要了解這些基本概念。
作者
WaiTing LI
發佈者名稱
Well Develop International Limited
發佈者商標

關於 WaiTing LI

SEO專家地位並非紙上談兵自說自話而來,應該是基於由同業又或者權威的獨立第三方給予的評價。SEO專家地位大致可以從 Google 給予你所競逐一大籃子競爭性高的關鍵字排名結果推斷出來。我關於宣傳推廣、網店、SEO優化的文章取得很高排名,是搜尋引擎給予我專家效應的結果。

也查看

手機 Mobile SEO

手機 Mobile SEO, 如何在手机中搜尋排名第一

手機 Mobile SEO 和 …

發佈留言