書生成數學“課代表”,上海AI實驗室開源發布書生·浦語數學
供稿 / 2024-01-24 11:0754371月23日,上海人工智能實驗室(上海AI實驗室)開源發布新一代數學模型書生·浦語數學(InternLM2-Math)。基于書生·浦語2.0(InternLM2)強大的基礎能力,InternLM2-Math僅以中輕量級參數規模,即在多項數學評測中刷新開源模型數學能力上限;此外,InternLM2-Math不僅會“解題”,更會“判題”,突破了傳統數學大模型應用局限,將為數學基礎研究和教學提供優質應用基座。
InternLM2-Math為首個同時支持形式化數學語言及解題過程評價的開源模型,以強大內生計算和推理能力,為技術社區提供強大數學工具和模型范式。秉持“以高質量開源賦能創新”的理念,InternLM2-Math代碼和模型完全開源,并支持免費商用。
數學能力是大語言模型推理水平的重要體現。近日,谷歌 DeepMind 運用AI數學模型AlphaGeometry解幾何題,其水平已接近人類奧林匹克金牌得主,引發廣泛關注。當前,全球數學大模型領域研究取得了突出進展,但與頂尖人類水平相比仍然存在差距。上海AI實驗室將繼續以開源開放理念,與全球研究人員合作,共同探索提升語言模型數學推理能力的提升路徑。
InternLM2-Math對MATH評測集中Level-5難度題目的解題過程
開源鏈接
? GitHub:https://github.com/InternLM/InternLM2-Math
? Huggingface:https://huggingface.co/internlm
? ModelScope:https://modelscope.cn/organization/Shanghai_AI_Laboratory
四兩撥千斤,輕量級選手刷新能力上限
本次開源的InternLM2-Math同時包含輕量級(7B)及中量級(20B)兩個版本。
為測試InternLM2-Math的能力水平,研究人員采用GSM8K、MATH、匈牙利數學競賽等三項數學評測集作為驗證“考題”。評測結果顯示,InternLM2-Math-7B以輕量級參數規模達到了與GPT-3.5同等的數學水平;中量級的InternLM2-Math-20B 則在沒有借助任何外部工具的條件下,取得了目前開源模型的最佳成績,達到與GPT-4接近的數學能力,刷新當前開源模型數學能力上限。
? GSM8K:OpenAI提出的英文小學算數習題集,共1000余題;
? MATH:UC Berkeley提出的英文初高中競賽習題集,共5000題;
? 匈牙利數學競賽評測集:用來衡量模型在非常見分布上的數學性能的測試集,共30余小問,通過專家校閱進行打分。
多個同類模型在GSM8K評測集上評測成績對比,InternLM2-Math綜合領先通用模型和數學專用模型,接近GPT-4數學能力
從下圖中可見,InternLM2-Math-7B在GSM8K和MATH上的測試評分分別達到78.1和34.6,超越其他7B量級的通用模型和數學專用模型,與ChatGPT(GPT-3.5)不分伯仲。InternLM2-Math-20B 則超越了更大規模參數的數學專用模型MetaMath-Llemma-34B以及數理能力較強的 70B 級別通用開源模型Qwen-72B和DeepSeek-67B,并且在各個數據集上都達到了GPT-4性能約九成的評測成績。
為了考察InternLM2-Math通用的數學能力,研究人員引入了“匈牙利數學競賽評測集”作為指標參考,該評測集用于衡量語言模型OOD(分布外泛化)的數學性能。評測結果顯示,InternLM2-Math的7B與20B版本分別獲得55分和66分,遠超同類開源模型并整體接近GPT-4。這表明,InternLM2的數學性能并非針對特定評測集“突擊”優化而來,而是具備了增強通用的數學能力。
為了保證InternLM2-Math在參與考試前沒有被“泄題”,研究人員采用了MinHash和嚴格的數字匹配對模型訓練中可能遇到的測試集數據進行去重,避免產生“數據污染”,研究人員在兩組對照數據集上進行了損失函數計算,若不存在數據污染,損失函數應接近或大于0。驗證結果顯示,在InternLM2-Math7B/20B兩個版本的損失函數值分別為0.14及0.11,表明訓練過程中不存在“數據污染”。InternLM2-Math的數學考試成績來源于自身“硬實力”,沒有“考前泄題”。
數學課代表是怎樣煉成的
上海AI實驗室近期開源的InternLM2模型基座語言建模能力獲得質的提升,綜合性能達到同量級開源模型的領先水平,得益于此,InternLM2獲得了 “天賦”。
研究人員利用InternLM2基座版模型,精選數學相關語料進行繼續預訓練,包括中英文數學相關的代碼、網頁、書籍等。其中,InternLM2-Math-7B/20B分別經過了120B和80Btoken的繼續預訓練。
微調階段使用的指令數據覆蓋中英文雙語,共計200余萬條,包含CoT、工具調用、獎勵模型、數據推廣等多種形式,。
研究人員同時對數據量較少、模型性能交叉的數學知識點進行了數據增廣,運用獎勵建模能對增廣數據進行了過濾,刪除不可靠的回復。對于數據中的復雜計算過程,研究人員將其擴寫為更詳細的步驟,使模型減少跳步推理產生的計算幻覺。
通過以上多任務學習,“天賦選手”逐步獲取了多種數學能力,成為“優等生”。
經過多任務學習的InternLM2-Math在不借助任何工具(計算器、Python、Wolfram)的情況下,已表現出了高性能的內生計算能力。為探索其由“優等生”進步為“尖子生”的可能性,研究人員在訓練時引入了數學語言Lean。
Lean是一種形式化數學語言,通過機器可檢查的數學證明來數字化數學定理的證明,目前,許多本科數學階段以下的數學定理都已經被用Lean表述。權威數學家曾通過Lean語言將學術論文轉為形式化表達,表明Lean已經具有對現代數學的描述能力。
經過訓練,InternLM2-Math可使用Lean的代碼進行解答題計算,可將自然語言的證明題與Lean語言的證明狀態互相翻譯,或者根據給定的Lean證明狀態進行證明步驟的搜索。表明InternLM2-Math在內生計算能力上,衍生出了強大的數學推理能力,已由“天賦選手”進步為名副其實的“數學尖子生”。
下圖為InternLM2-Math使用Lean 3解應用題的例子,模型在注釋會描述自己的計算思路。
下圖為InternLM2-Math進行交互式證明,模型會根據當前Lean的證明狀態搜索下一個證明步驟。模型用形式化的語言嚴格的證明了給定的命題。
會解題也會判題的“AI名師”
InternLM2-Math創新性地具備了對解題過程與結果的評價能力,不僅會“解題”,更會“判題”。其超越傳統數學大模型的廣闊應用空間,將為數學基礎研究、教學提供優質應用基座。
研究人員在模型微調階段同時引入Outcome Reward Model (ORM)、Process Reward Model (PRM)、Lean as Reward Model (LRM)訓練數據。通過PRM能力的獲取,使InternLM2-Math可以認識到“自身錯誤”并指出錯誤過程。而LRM可使模型將自己產生的CoT 過程轉變為Lean的形式,再通過Lean的計算結果判斷過程的正確性,達到形式化過程監督的目的。
下圖展示了模型PRM的能力,模型指出了錯誤的過程。
作為首個同時支持形式化數學語言及解題過程評價的開源模型,InternLM2-Math能夠判斷模型思維鏈過程的正確與否,使得模型具備數學能力持續改進的潛力。
書生成數學“課代表”,上海AI實驗室開源發布書生·浦語數學














滬公網安備 31010702005758號
發表評論注冊|登錄