Discuz! Board

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 discuz
查看: 4|回復: 0

使用內嵌進行 SEO 的關鍵字聚類

[複製鏈接]

1

主題

1

帖子

5

積分

新手上路

Rank: 1

積分
5
發表於 2024-4-6 13:15:22 | 顯示全部樓層 |閱讀模式
本教學將使用Microsoft ORCAS,這是我在 Dawn Andersons 的幫助下發現的一個獨特的基於點擊的資料集。我們將擴展一組初始關鍵字,並使用嵌入來提供圍繞搜尋查詢結果清單的上下文。 Microsoft 在 TREC(文字檢索會議)、一個社群和一系列專注於不同資訊檢索 (IR) 研究領域的研討會的背景下策劃了該資料集。 資料集中的每筆記錄都將查詢與 Web 文件連接起來,其中 Microsoft 提供了文件識別碼和文件的 天為什麼是藍色的 號碼:我決定只專注於查詢(Q);我想透過擴展一組術語來快速探索搜尋詞彙。我想了解人們圍繞給定主題搜尋什麼,並能夠向我們的客戶建議潛在的機會。 這些資料雖然是靜態的,但確實具有巨大的潛力,因為我們有來自現實世界的一千萬個不同的查詢(最有可能是在 Bing 上完成的搜尋)。 請隨意將此工作流程與您可能從 Google Search Console、SEMrush、Ahrefs 或任何其他關鍵字工具獲得的任何查詢清單重複使用。 Google合作實驗室 這是將產生嵌入的Colab 的連結。

這是TensorFlow Projector 的鏈接,用於可視化嵌入。 編碼意義 當我們查看 丹麥 電話號碼 查詢時,我們想要了解其含義和搜尋意圖。我們可以透過提供圍繞它的上下文來做到這一點。我們可以在自然語言處理中使用詞嵌入和預訓練的語言模型來實現這一目標。現有的語言模型已經在大型文本語料庫上進行了訓練,以「學習」語言的常用方式。 當我們建立嵌入時,我們會將這些知識轉移到我們的資料集中。雖然為整個資料集產生嵌入是可行的(它可以毫無問題地處理多達 400 萬個查詢),但我決定處理特定的術語子集。 過濾查詢 當我和我親愛的朋友 Matteoc(以對跑車的痴迷而聞名)一起進行這個實驗時,我決定分析與汽車製造商保時捷公司的奇妙世界相關的一系列意圖。 當然,您可以選擇不同的主題。



該程式碼簡單且易於改進,但本質上是從 ORCAS 資料集中獲取與所提供術語清單相符的所有查詢。在我們的保時捷範例中,我們獲得了 856 個查詢。 句子變形金剛 為了創建嵌入,我選擇了SentenceTransformers,這是一個用於最先進的句子(文字和現在的圖像)嵌入的 Python 框架。 它是一個廣泛使用的庫,可與HuggingFace 模型中心上託管的預訓練模型一起使用。 聚類和 TensorFlow Projector 一旦我們將每個查詢轉換為多維向量,我們就可以專注於聚類。我們可以使用UMAP、HDBSAN等降維演算法進行聚類,也可以直接使用K-means。用於產生第一個圖表的程式碼與偉大的 Maarten Grootendorst 的部落格 文章「使用 BERT 進行主題建模」中描述的程式碼相同。 在這些情況下,我個人探索資料的選擇是直接將嵌入插入 TensorFlow Projector 中。 TensorFlow Projector 是一種視覺化工具,旨在透過將嵌入(或多維空間中的任何形式的資料)投影到可從瀏覽器存取的 3D 環境中來分析和探索嵌入。

回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|自動贊助|GameHost抗攻擊論壇

GMT+8, 2024-11-24 19:24 , Processed in 0.586856 second(s), 29 queries .

抗攻擊 by GameHost X3.4

© 2001-2017 Comsenz Inc.

快速回復 返回頂部 返回列表
一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |