Yandex 開源 LLM 訓練工具節省高達 20% 的 GPU 資源
供稿 / 2024-06-11 17:1282992024 年 6 月 11 日,莫斯科——跨國科技公司 Yandex 最近推出了 YaFSDP,這是一種用于訓練大型語言模型 (LLM) 的開源方法。YaFSDP 是目前最有效的公開可用工具,用于增強 GPU 通信并減少 LLM 訓練中的內存使用量,與 FSDP 相比,其訓練速度提升最高可達 26%,具體取決于架構和參數數量。通過使用 YaFSDP 減少 LLM 的訓練時間可以節省高達 20% 的 GPU 資源。
Yandex 承諾為全球人工智能社區的發展做出貢獻,將YaFSDP開源提供給全球的 LLM 開發人員和人工智能愛好者即是履行此承諾的其中一步。
“目前,我們正在積極嘗試各種模型架構和參數大小,以擴展 YaFSDP 的多功能性,”Yandex 高級開發專家、YaFSDP 團隊成員 Mikhail Khruschev 指出,“我們很高興與全球 ML 社區分享我們在 LLM 訓練方面的研發成果,希望能為全球研究人員和開發者獲得更多的開源工具和更高的效率做出貢獻。”
YaFSDP 案例
LLM 訓練是一個耗時且資源密集的過程。機器學習工程師和自主開發 LLM 的公司投入了大量的時間和 GPU 資源(相當于金錢)來訓練這些模型。模型越大,其訓練所需的時間和費用就越高。
Yandex 的 YaFSDP 優化了學習速度和性能,使全球的 AI 開發人員在訓練模型時可以使用更少的計算能力和 GPU 資源。例如,在涉及具有 700 億個參數之模型的預訓練場景中,使用 YaFSDP 可以節省大約 150 個 GPU 的資源,這意味著每月可以節省大約 50 萬美元到 150 萬美元(取決于虛擬 GPU 提供商或平臺)。
YaFSDP 通過消除 GPU 通信效率低下來提升效能,確保訓練時只需必要的處理器內存,并使 GPU 交互不間斷。
YaFSDP 的訓練效率
YaFSDP 是 FSDP 的增強版,在 LLM 訓練中最耗通信的階段(如預訓練、對齊和微調)中,其表現優于 FSDP 方法。YaFSDP 在 Llama 2 和 Llama 3 上展示的最終提速表明訓練速度顯著提高,在 Llama 2 70B 和 Llama 3 70B 上分別達到 21% 和 26%。
Mikhail Khruschev 表示:“YaFSDP 在 130 億至 700 億個參數的模型上表現出色,在 300 億至 700 億個參數范圍內表現尤為驚人。目前,YaFSDP 最適合基于 LLaMA 架構的廣泛使用之開源模型。”
YaFSDP 并不是 Yandex 的第一個開源工具。該公司之前曾分享過其他幾款在 ML 社區中很受歡迎的工具,包括:
· CatBoost:一種高性能的基于決策樹之梯度提升庫。
· YTsaurus:分布式存儲和處理的大數據平臺。
· AQLM:最先進的量化算法之一,用于大型語言模型的極限壓縮。由 Yandex Research、HSE 大學、 IST Austria 及 NeuralMagic 共同開發。
· Petals:是一個旨在簡化 LLM 訓練和微調過程的庫,由 Yandex Research、HSE 大學、華盛頓大學、Hugging Face、巴黎-薩克雷高等經濟學院和 Yandex 數據分析學院合作開發。
關于Yandex
Yandex 是一家跨國科技公司,致力于打造基于機器學習的智能產品和服務。該公司的目標是幫助消費者和企業更好地駕馭線上和線下世界。自 1997 年以來,Yandex 一直提供世界一流的本地相關搜索和信息服務,還為全球數百萬消費者開發了市場領先的按需交通服務、導航產品和其他移動應用程序。
– – – – –
參考信息
在大型語言模型 (LLM) 訓練期間,開發人員必須有效管理三種主要資源:計算能力、處理器內存和處理器通信。YaFSDP 保護了前兩個資源,這有助于加速 LLM 訓練過程。
LLM 訓練依賴于組織成集群的大量 GPU——互連的圖形處理器陣列,可以執行訓練具有數十億個參數的模型所需的大量計算。在集群中的處理器之間分配計算需要不斷通信,這通常會成為“瓶頸”,減慢訓練過程并導致計算能力的低效使用。
為了克服這一瓶頸,Yandex 開發人員創建了 YaFSDP,這是一種改善 GPU 通信并優化學習速度和性能的方法。與 Yandex 的其他性能增強解決方案結合使用時,該方法可將某些模型的訓練過程加速高達 45%。
YaFSDP 的工作原理是消除 GPU 通信效率低下的問題,從而優化網絡使用率并減少內存負載。它確保訓練時只需要必要的處理器內存,并使 GPU 交互不間斷,從而促進進一步的優化,例如最大限度地減少處理器通信時間。這可以顯著提高性能和內存效率。
YaFSDP 方法可以有效應用于基于 transformer 的多層文本生成模型(多層感知器),其中以 LLaMA 類模型最為典型。在 700 億參數模型的預訓練場景中,使用 YaFSDP 可以節省約 150 個 GPU 的資源。
與 FSDP 相比,YaFSDP 在 Llama 2 和 Llama 3 上表現出的最終提速表明訓練效率顯著提高。
模型 | GPU數量 | 輸入序列長度 | 具有激活檢查點的層數 | 提速 |
Llama 2 7B | 64 | 2048 | 0 | 9.92% |
Llama 2 7B | 64 | 4096 | 0 | 3.43% |
Llama 2 13B | 128 | 2048 | 0 | 12.10% |
Llama 2 13B | 128 | 4096 | 0 | 3.49% |
Llama 2 34B | 128 | 2048 | 0 | 20.70% |
Llama 2 34B | 256 | 2048 | 0 | 21.99% |
Llama 2 34B | 256 | 4096 | 5 | 8.35% |
Llama 2 70B | 256 | 2048 | 10 | 21.48% |
Llama 2 70B | 256 | 4096 | 50 | 7.17% |
Llama 3 8B | 64 | 2048 | 0 | 11.91% |
Llama 3 8B | 64 | 4096 | 0 | 7.86% |
Llama 3 70B | 256 | 2048 | 20 | 26.60% |
Yandex 開源 LLM 訓練工具節省高達 20% 的 GPU 資源














滬公網安備 31010702005758號
發表評論注冊|登錄