Yandex 發布全球最大事件數據集,助力推薦系統發展
供稿 / 2025-05-30 21:053658Yandex 發布了 Yambda(Yandex Music Billion-Interactions Dataset,即 Yandex Music 十億級交互數據集),這是全球最大的推薦系統開放數據集,包含近 50 億條來自其音樂流媒體平臺 Yandex Music 的用戶與音軌的匿名交互數據。
Yambda, 全球最大的推薦系統開放數據集
Yambda 可作為通用基準來測試推薦系統的新方法和算法,適用于電子商務、社交網絡和短視頻平臺等所有使用推薦系統的領域。
研究人員可借助該數據集基于其基線模型開發和測試新的推薦算法,從而加速創新進程。數據資源有限的初創企業可以先利用 Yambda 數據集構建和測試系統,然后再擴展規模。這有助于在全球范圍內加快特定于業務需求的先進技術開發進程。
彌合研究與產業的鴻溝
訓練數據的質量與規模對于流媒體服務、社交網絡、短視頻應用和電商等平臺提供相關的推薦內容而言至關重要。然而,推薦系統領域的研究已落后于大語言模型等迅速發展的領域,其主要原因便是缺乏大規模數據集。效果良好的推薦模型需要 TB 級的行為數據,商業平臺雖然擁有這些數據但卻極少公開分享。
數據集統計的軌跡分布
研究人員通常只能獲得規模較小且過時的數據集,難以反映現代使用場景的復雜性:
● Spotify 的百萬歌單數據集對于商業級推薦系統而言規模過小。
● Netflix Prize 數據集包含約 17,000 個項目且時間戳僅包含日期,限制了時序建模和大規模研究。
● Criteo 1TB 點擊日志數據集缺乏合適的文檔和標識符,且只關注廣告點擊。
“推薦系統天生與敏感數據緊密相關。企業只有在進行充分的匿名化處理后才能公開發布推薦系統數據集,這一過程會耗費大量資源,減緩了開放創新的步伐。”Yandex 推薦系統負責人 Nikolai Savushkin 解釋道。
數據短缺導致了落差的出現:學術表現優異的模型在現實應用中往往表現不佳。將推薦系統與先進架構加以整合的工作也因缺乏合適的訓練數據而受限。
Yambda 數據集簡介
Yambda 提供的海量匿名數據集來自其月活用戶約 2800 萬的音樂流媒體服務,解決了推薦系統面臨的挑戰。 該數據集揭示了用戶與 Yandex Music 平臺內容的交互方式,該平臺以其先進的 My Wave 推薦系統著稱,能夠根據每位用戶的品味定制收聽體驗。為保護隱私,所有用戶和音軌數據均已匿名化,采用數字標識符以符合隱私標準。

數據集統計的用戶內容交互歷史
數據集主要特性:
● 歷時 10 個月收集的 47.9 億條匿名的用戶交互數據。
● 來自 100 萬用戶的數據以及 939 萬條音軌的匿名描述符。
● 包含兩種反饋類型:隱式交互(收聽)和顯式交互(喜歡、不喜歡及其撤銷)。
● 提供音頻嵌入向量(通過卷積神經網絡生成的向量表示)及音軌的匿名信息。
● 設有“is_organic”標記,區分用戶是自主發現音軌還是通過推薦發現,便于進行更深入的行為分析。
● 所有事件均帶有時間戳,從而支持對用戶行為的時序分析,使模型能夠在更接近真實使用場景的條件下接受評估。
數據集以 Apache Parquet 格式發布,兼容 Spark、Hadoop 等分布式處理系統和 Pandas、Polars 等分析庫。
“Yambda 讓研究人員能驗證創新性假設,讓企業能構建更智能的推薦系統。最終,用戶將會受益,能夠輕松找到符合需求的的歌曲、商品或服務。”Nikolai Savushkin 補充說道。
數據集版本與評估
Yambda 數據集提供三種規模:約 50 億、5 億和 5000 萬事件量級,滿足需求和算力資源條件不同的研究人員與開發者。

數據集采用全局時間分割 (GTS) 進行評估,該方法按時間戳劃分數據以保持事件序列。與留一法 (Leave-One-Out) 從每個用戶的歷史記錄中移除最后一次正向交互以用于測試的做法不同,GTS 避免破壞訓練集和測試集之間的時序依賴,模擬了未來數據不可用的現實條件,讓模型測試更為真實。

采用全局時間分割 (GTS) 的評估方案
基線實現包括 MostPop、DecayPop、ItemKNN、iALS、BPR、SANSA 和 SASRec,為比較新推薦系統方法提供基準。這些基線通過標準指標進行評估,包括:
● NDCG@k(排序質量)
● Recall@k(檢索效果)
● Coverage@k(目錄多樣性)
“當行業領袖共享寶貴的工具和數據時,所有人都會從中受益:研究人員獲得真實的基準,初創企業獲得原本只屬于科技巨頭的資源,全球用戶得以享受更優質的個性化體驗。”Nikolay Savushkin 補充說道。
Yambda,全球最大的推薦系統開放數據集,現已在 Hugging Face 發布。
Yandex 簡介
Yandex 是一家全球性的科技公司,專注于打造由機器學習驅動的智能產品與服務。公司宗旨為幫助消費者和企業更好地應對線上與線下世界的挑戰。自 1997 年以來,Yandex 持續提供世界級、本地化的搜索與信息服務,并為全球數百萬消費者開發了市場領先的按需出行服務、導航產品及其他移動應用。
My Wave 簡介
My Wave 是集成于用戶規模達數百萬的音樂流媒體服務 Yandex Music 中的個性化推薦系統,采用深度神經模型和 AI 算法分析千余項因素,包括用戶交互、可定制的情緒/語言設置,以及對聲譜圖、頻率范圍、節奏、聲調和流派等的實時音樂分析。通過處理收聽歷史記錄和音軌序列來動態適應用戶偏好、識別音頻相似性并預測音樂品味,從而提供量身定制的推薦內容。
Yandex 發布全球最大事件數據集,助力推薦系統發展














滬公網安備 31010702005758號
發表評論注冊|登錄