書生成數學“課代表”，上海AI實驗室開源發布書生·浦語數學

供稿 / 2024-01-24 11:075437

1月23日，上海人工智能實驗室（上海AI實驗室）開源發布新一代數學模型書生·浦語數學（InternLM2-Math）。基于書生·浦語2.0（InternLM2）強大的基礎能力，InternLM2-Math僅以中輕量級參數規模，即在多項數學評測中刷新開源模型數學能力上限；此外，InternLM2-Math不僅會“解題”，更會“判題”，突破了傳統數學大模型應用局限，將為數學基礎研究和教學提供優質應用基座。

InternLM2-Math為首個同時支持形式化數學語言及解題過程評價的開源模型，以強大內生計算和推理能力，為技術社區提供強大數學工具和模型范式。秉持“以高質量開源賦能創新”的理念，InternLM2-Math代碼和模型完全開源，并支持免費商用。

數學能力是大語言模型推理水平的重要體現。近日，谷歌 DeepMind 運用AI數學模型AlphaGeometry解幾何題，其水平已接近人類奧林匹克金牌得主，引發廣泛關注。當前，全球數學大模型領域研究取得了突出進展，但與頂尖人類水平相比仍然存在差距。上海AI實驗室將繼續以開源開放理念，與全球研究人員合作，共同探索提升語言模型數學推理能力的提升路徑。

【新聞稿】書生成數學“課代表”，上海AI實驗室開源發布書生·浦語數學，計算推理能力刷新上限20240123(2)543.png

InternLM2-Math對MATH評測集中Level-5難度題目的解題過程

開源鏈接

? GitHub：https://github.com/InternLM/InternLM2-Math

? Huggingface：https://huggingface.co/internlm

? ModelScope：https://modelscope.cn/organization/Shanghai_AI_Laboratory

四兩撥千斤，輕量級選手刷新能力上限

本次開源的InternLM2-Math同時包含輕量級（7B）及中量級（20B）兩個版本。

為測試InternLM2-Math的能力水平，研究人員采用GSM8K、MATH、匈牙利數學競賽等三項數學評測集作為驗證“考題”。評測結果顯示，InternLM2-Math-7B以輕量級參數規模達到了與GPT-3.5同等的數學水平；中量級的InternLM2-Math-20B 則在沒有借助任何外部工具的條件下，取得了目前開源模型的最佳成績，達到與GPT-4接近的數學能力，刷新當前開源模型數學能力上限。

? GSM8K：OpenAI提出的英文小學算數習題集，共1000余題；

? MATH：UC Berkeley提出的英文初高中競賽習題集，共5000題；

? 匈牙利數學競賽評測集：用來衡量模型在非常見分布上的數學性能的測試集，共30余小問，通過專家校閱進行打分。

【新聞稿】書生成數學“課代表”，上海AI實驗室開源發布書生·浦語數學，計算推理能力刷新上限20240123(2)1143.png

多個同類模型在GSM8K評測集上評測成績對比，InternLM2-Math綜合領先通用模型和數學專用模型，接近GPT-4數學能力

從下圖中可見，InternLM2-Math-7B在GSM8K和MATH上的測試評分分別達到78.1和34.6，超越其他7B量級的通用模型和數學專用模型，與ChatGPT（GPT-3.5）不分伯仲。InternLM2-Math-20B 則超越了更大規模參數的數學專用模型MetaMath-Llemma-34B以及數理能力較強的 70B 級別通用開源模型Qwen-72B和DeepSeek-67B，并且在各個數據集上都達到了GPT-4性能約九成的評測成績。

【新聞稿】書生成數學“課代表”，上海AI實驗室開源發布書生·浦語數學，計算推理能力刷新上限20240123(2)1437.png

為了考察InternLM2-Math通用的數學能力，研究人員引入了“匈牙利數學競賽評測集”作為指標參考，該評測集用于衡量語言模型OOD（分布外泛化）的數學性能。評測結果顯示，InternLM2-Math的7B與20B版本分別獲得55分和66分，遠超同類開源模型并整體接近GPT-4。這表明，InternLM2的數學性能并非針對特定評測集“突擊”優化而來，而是具備了增強通用的數學能力。

為了保證InternLM2-Math在參與考試前沒有被“泄題”，研究人員采用了MinHash和嚴格的數字匹配對模型訓練中可能遇到的測試集數據進行去重，避免產生“數據污染”，研究人員在兩組對照數據集上進行了損失函數計算，若不存在數據污染，損失函數應接近或大于0。驗證結果顯示，在InternLM2-Math7B/20B兩個版本的損失函數值分別為0.14及0.11，表明訓練過程中不存在“數據污染”。InternLM2-Math的數學考試成績來源于自身“硬實力”，沒有“考前泄題”。

數學課代表是怎樣煉成的

上海AI實驗室近期開源的InternLM2模型基座語言建模能力獲得質的提升，綜合性能達到同量級開源模型的領先水平，得益于此，InternLM2獲得了 “天賦”。

研究人員利用InternLM2基座版模型，精選數學相關語料進行繼續預訓練，包括中英文數學相關的代碼、網頁、書籍等。其中，InternLM2-Math-7B/20B分別經過了120B和80Btoken的繼續預訓練。

微調階段使用的指令數據覆蓋中英文雙語，共計200余萬條，包含CoT、工具調用、獎勵模型、數據推廣等多種形式，。

研究人員同時對數據量較少、模型性能交叉的數學知識點進行了數據增廣，運用獎勵建模能對增廣數據進行了過濾，刪除不可靠的回復。對于數據中的復雜計算過程，研究人員將其擴寫為更詳細的步驟，使模型減少跳步推理產生的計算幻覺。

通過以上多任務學習，“天賦選手”逐步獲取了多種數學能力，成為“優等生”。

經過多任務學習的InternLM2-Math在不借助任何工具（計算器、Python、Wolfram）的情況下，已表現出了高性能的內生計算能力。為探索其由“優等生”進步為“尖子生”的可能性，研究人員在訓練時引入了數學語言Lean。

Lean是一種形式化數學語言，通過機器可檢查的數學證明來數字化數學定理的證明，目前，許多本科數學階段以下的數學定理都已經被用Lean表述。權威數學家曾通過Lean語言將學術論文轉為形式化表達，表明Lean已經具有對現代數學的描述能力。

經過訓練，InternLM2-Math可使用Lean的代碼進行解答題計算，可將自然語言的證明題與Lean語言的證明狀態互相翻譯，或者根據給定的Lean證明狀態進行證明步驟的搜索。表明InternLM2-Math在內生計算能力上，衍生出了強大的數學推理能力，已由“天賦選手”進步為名副其實的“數學尖子生”。

下圖為InternLM2-Math使用Lean 3解應用題的例子，模型在注釋會描述自己的計算思路。

【新聞稿】書生成數學“課代表”，上海AI實驗室開源發布書生·浦語數學，計算推理能力刷新上限20240123(2)2708.png

下圖為InternLM2-Math進行交互式證明，模型會根據當前Lean的證明狀態搜索下一個證明步驟。模型用形式化的語言嚴格的證明了給定的命題。

【新聞稿】書生成數學“課代表”，上海AI實驗室開源發布書生·浦語數學，計算推理能力刷新上限20240123(2)2783.png

會解題也會判題的“AI名師”

InternLM2-Math創新性地具備了對解題過程與結果的評價能力，不僅會“解題”，更會“判題”。其超越傳統數學大模型的廣闊應用空間，將為數學基礎研究、教學提供優質應用基座。

研究人員在模型微調階段同時引入Outcome Reward Model (ORM)、Process Reward Model (PRM)、Lean as Reward Model (LRM)訓練數據。通過PRM能力的獲取，使InternLM2-Math可以認識到“自身錯誤”并指出錯誤過程。而LRM可使模型將自己產生的CoT 過程轉變為Lean的形式，再通過Lean的計算結果判斷過程的正確性，達到形式化過程監督的目的。

下圖展示了模型PRM的能力，模型指出了錯誤的過程。

【新聞稿】書生成數學“課代表”，上海AI實驗室開源發布書生·浦語數學，計算推理能力刷新上限20240123(2)3126.png