91亚洲狠狠婷婷综合久久久Ih视频日本Ifreexxx丝袜办公室hdI超黄视频网站I精品亚洲欧美一区I欧美 激情在线I98涩涩国产露脸精品国产网I亚洲专区在线视频I一级亚洲I91红桃视频I一区五区电影I亚洲成人7777777I一区二区三区四区五区I国产精品A片I国产精品视频永久免费播放I久久视频在线I你懂的在线视频I亚洲H天堂

書生成數學“課代表”,上海AI實驗室開源發布書生·浦語數學

書生成數學“課代表”,上海AI實驗室開源發布書生·浦語數學

供稿 / 2024-01-24 11:075437

1月23日,上海人工智能實驗室(上海AI實驗室)開源發布新一代數學模型書生·浦語數學(InternLM2-Math)。基于書生·浦語2.0(InternLM2)強大的基礎能力,InternLM2-Math僅以中輕量級參數規模,即在多項數學評測中刷新開源模型數學能力上限;此外,InternLM2-Math不僅會“解題”,更會“判題”,突破了傳統數學大模型應用局限,將為數學基礎研究和教學提供優質應用基座。

InternLM2-Math為首個同時支持形式化數學語言及解題過程評價的開源模型,以強大內生計算和推理能力,為技術社區提供強大數學工具和模型范式。秉持“以高質量開源賦能創新”的理念,InternLM2-Math代碼和模型完全開源,并支持免費商用。

數學能力是大語言模型推理水平的重要體現。近日,谷歌 DeepMind 運用AI數學模型AlphaGeometry解幾何題,其水平已接近人類奧林匹克金牌得主,引發廣泛關注。當前,全球數學大模型領域研究取得了突出進展,但與頂尖人類水平相比仍然存在差距。上海AI實驗室將繼續以開源開放理念,與全球研究人員合作,共同探索提升語言模型數學推理能力的提升路徑。

【新聞稿】書生成數學“課代表”,上海AI實驗室開源發布書生·浦語數學,計算推理能力刷新上限20240123(2)543.png 

InternLM2-Math對MATH評測集中Level-5難度題目的解題過程

開源鏈接

? GitHub:https://github.com/InternLM/InternLM2-Math

? Huggingface:https://huggingface.co/internlm

? ModelScope:https://modelscope.cn/organization/Shanghai_AI_Laboratory

四兩撥千斤,輕量級選手刷新能力上限

本次開源的InternLM2-Math同時包含輕量級(7B)及中量級(20B)兩個版本。

為測試InternLM2-Math的能力水平,研究人員采用GSM8K、MATH、匈牙利數學競賽等三項數學評測集作為驗證“考題”。評測結果顯示,InternLM2-Math-7B以輕量級參數規模達到了與GPT-3.5同等的數學水平;中量級的InternLM2-Math-20B 則在沒有借助任何外部工具的條件下,取得了目前開源模型的最佳成績,達到與GPT-4接近的數學能力,刷新當前開源模型數學能力上限。

? GSM8K:OpenAI提出的英文小學算數習題集,共1000余題;

? MATH:UC Berkeley提出的英文初高中競賽習題集,共5000題;

? 匈牙利數學競賽評測集:用來衡量模型在非常見分布上的數學性能的測試集,共30余小問,通過專家校閱進行打分。

【新聞稿】書生成數學“課代表”,上海AI實驗室開源發布書生·浦語數學,計算推理能力刷新上限20240123(2)1143.png 

多個同類模型在GSM8K評測集上評測成績對比,InternLM2-Math綜合領先通用模型和數學專用模型,接近GPT-4數學能力

從下圖中可見,InternLM2-Math-7B在GSM8K和MATH上的測試評分分別達到78.1和34.6,超越其他7B量級的通用模型和數學專用模型,與ChatGPT(GPT-3.5)不分伯仲。InternLM2-Math-20B 則超越了更大規模參數的數學專用模型MetaMath-Llemma-34B以及數理能力較強的 70B 級別通用開源模型Qwen-72B和DeepSeek-67B,并且在各個數據集上都達到了GPT-4性能約九成的評測成績。

【新聞稿】書生成數學“課代表”,上海AI實驗室開源發布書生·浦語數學,計算推理能力刷新上限20240123(2)1437.png 

為了考察InternLM2-Math通用的數學能力,研究人員引入了“匈牙利數學競賽評測集”作為指標參考,該評測集用于衡量語言模型OOD(分布外泛化)的數學性能。評測結果顯示,InternLM2-Math的7B與20B版本分別獲得55分和66分,遠超同類開源模型并整體接近GPT-4。這表明,InternLM2的數學性能并非針對特定評測集“突擊”優化而來,而是具備了增強通用的數學能力。

為了保證InternLM2-Math在參與考試前沒有被“泄題”,研究人員采用了MinHash和嚴格的數字匹配對模型訓練中可能遇到的測試集數據進行去重,避免產生“數據污染”,研究人員在兩組對照數據集上進行了損失函數計算,若不存在數據污染,損失函數應接近或大于0。驗證結果顯示,在InternLM2-Math7B/20B兩個版本的損失函數值分別為0.14及0.11,表明訓練過程中不存在“數據污染”。InternLM2-Math的數學考試成績來源于自身“硬實力”,沒有“考前泄題”。

數學課代表是怎樣煉成的

上海AI實驗室近期開源的InternLM2模型基座語言建模能力獲得質的提升,綜合性能達到同量級開源模型的領先水平,得益于此,InternLM2獲得了 “天賦”。

研究人員利用InternLM2基座版模型,精選數學相關語料進行繼續預訓練,包括中英文數學相關的代碼、網頁、書籍等。其中,InternLM2-Math-7B/20B分別經過了120B和80Btoken的繼續預訓練。

微調階段使用的指令數據覆蓋中英文雙語,共計200余萬條,包含CoT、工具調用、獎勵模型、數據推廣等多種形式,。

研究人員同時對數據量較少、模型性能交叉的數學知識點進行了數據增廣,運用獎勵建模能對增廣數據進行了過濾,刪除不可靠的回復。對于數據中的復雜計算過程,研究人員將其擴寫為更詳細的步驟,使模型減少跳步推理產生的計算幻覺。

通過以上多任務學習,“天賦選手”逐步獲取了多種數學能力,成為“優等生”。

經過多任務學習的InternLM2-Math在不借助任何工具(計算器、Python、Wolfram)的情況下,已表現出了高性能的內生計算能力。為探索其由“優等生”進步為“尖子生”的可能性,研究人員在訓練時引入了數學語言Lean。

Lean是一種形式化數學語言,通過機器可檢查的數學證明來數字化數學定理的證明,目前,許多本科數學階段以下的數學定理都已經被用Lean表述。權威數學家曾通過Lean語言將學術論文轉為形式化表達,表明Lean已經具有對現代數學的描述能力。

經過訓練,InternLM2-Math可使用Lean的代碼進行解答題計算,可將自然語言的證明題與Lean語言的證明狀態互相翻譯,或者根據給定的Lean證明狀態進行證明步驟的搜索。表明InternLM2-Math在內生計算能力上,衍生出了強大的數學推理能力,已由“天賦選手”進步為名副其實的“數學尖子生”。

下圖為InternLM2-Math使用Lean 3解應用題的例子,模型在注釋會描述自己的計算思路。

【新聞稿】書生成數學“課代表”,上海AI實驗室開源發布書生·浦語數學,計算推理能力刷新上限20240123(2)2708.png 

下圖為InternLM2-Math進行交互式證明,模型會根據當前Lean的證明狀態搜索下一個證明步驟。模型用形式化的語言嚴格的證明了給定的命題。

【新聞稿】書生成數學“課代表”,上海AI實驗室開源發布書生·浦語數學,計算推理能力刷新上限20240123(2)2783.png 

會解題也會判題的“AI名師”

InternLM2-Math創新性地具備了對解題過程與結果的評價能力,不僅會“解題”,更會“判題”。其超越傳統數學大模型的廣闊應用空間,將為數學基礎研究、教學提供優質應用基座。

研究人員在模型微調階段同時引入Outcome Reward Model (ORM)、Process Reward Model (PRM)、Lean as Reward Model (LRM)訓練數據。通過PRM能力的獲取,使InternLM2-Math可以認識到“自身錯誤”并指出錯誤過程。而LRM可使模型將自己產生的CoT 過程轉變為Lean的形式,再通過Lean的計算結果判斷過程的正確性,達到形式化過程監督的目的。

下圖展示了模型PRM的能力,模型指出了錯誤的過程。

【新聞稿】書生成數學“課代表”,上海AI實驗室開源發布書生·浦語數學,計算推理能力刷新上限20240123(2)3126.png 

作為首個同時支持形式化數學語言及解題過程評價的開源模型,InternLM2-Math能夠判斷模型思維鏈過程的正確與否,使得模型具備數學能力持續改進的潛力。



發表評論注冊|


最近2019中文字幕大全第二页 | 超碰在线人人草 | 久久久久久精 | 日韩在线影视 | 黄色永久视频 | 久久国产精品无码一级毛片 | 小优视频污 | 日韩精品成人在线 | 成人av一区 | 国产欧美日韩综合精品一区二区三区 | 久久久免费| 黄色你懂的 | 亚洲人成电影网 | 四虎成人在线观看 | 香蕉在线影院 | 波多野42部无码喷潮 | 涩涩在线播放 | 无码国产精品一区二区高潮 | 欧美不卡在线观看 | 国产精选91 | 午夜寂寞院 | 久久成人亚洲 | 日韩狠狠 | 色小说在线观看 | 加勒比成人在线 | 91人人干 | 国产精品免费视频一区二区 | 狠狠干狠狠操视频 | 国产乱色| bt天堂新版中文在线地址 | 欧美成人乱码一二三四区免费 | 国产我不卡 | 奇米久久 | 欧美特黄一级大片 | 人人看人人看 | 欧美日韩成人一区二区在线观看 | 国产精品作爱 | 成人av黄色 | 水蜜桃久久 | 亚洲精品2区| 日韩国产激情 | 黄色网页在线看 | 日韩极品一区 | 午夜小视频免费 | 国产精品美女网站 | 成人日韩欧美 | 少妇视频一区 | 亚洲美女一区 | 樱桃成人精品视频在线播放 | 色av一区二区 | 爱情岛亚洲品质自拍极速福利网站 | 一区二区成人免费视频 | 麻豆精品视频在线 | 四虎影院在线视频 | 日韩免费高清视频网站 | 神马影院午夜伦理 | 欧美黄网站在线观看 | 黄视频网站免费看 | 中文精品无码中文字幕无码专区 | 岛国精品一区二区三区 | 男人和女人搞鸡 | 久久久免费av | 九九视频免费在线观看 | 欧美成人不卡 | 国产自产视频 | 久久久视频6r | 少妇精品亚洲一区二区成人 | 91蝌蚪| 午夜黄色在线 | 国产sm主人调教女m视频 | 六月久久 | 久久精品999 | 91久久综合精品国产丝袜蜜芽 | 黄色小网站入口 | 朴银狐电影中文在线看 | 用力插视频 | 黄色录像a级片 | www.国产精品| 91吃瓜在线| 国产做受91 | 好邻居韩国剧在线观看 | 黄色aaa大片 | 99自拍| 精品久久BBBBB精品人妻 | 精品国产精品网麻豆系列 | 久久涩视频 | 亚洲乱码中文字幕久久孕妇黑人 | 欧美日韩小说 | 欧美色图888 | av在线激情| 2021国产精品 | 大战熟女丰满人妻av | 国产激情精品一区二区三区 | 性久久久久久久久久久久 | 亚洲视频免费在线观看 | 自拍偷拍亚洲图片 | av电影在线观看不卡 | www.av色| 求毛片网站 | 91亚洲精品久久久蜜桃借种 | v888av| 岛国伊人 | 久久久久久久久久久影视 | 亚洲一级中文字幕 | 蜜桃又黄又粗又爽av免 | 毛片自拍| 夜夜精品视频 | 天天色av | 三级亚洲 | 超碰97在线人人 | 亚洲精品9| 日韩成人av免费在线观看 | 精品无人国产偷自产在线 | 草视频在线观看 | 国产自偷自拍 | 亚洲色图丝袜美腿 | 性做久久久久久免费观看欧美 | 午夜大片网 | 美景之屋电影免费高清完整韩剧 | 国产黄色自拍视频 | av在线麻豆 | 亚洲理论在线观看 | 人人夜| www.com黄色 | 精品国产伦一区二区三区 | 日韩精品美女 | 亚洲午夜精选 | 婷婷亚洲综合 | 欧美日韩在线免费看 | 用力抵着尿进去了h | 成人国产精品入口 | 男女一起插插插 | 国产真实自拍 | 成人av网页| 成人黄色在线 | 色爽爽一区二区三区 | 国产成人精品女人久久久 | 琪琪午夜伦理影院7777 | 亚洲清色 | 国产性―交一乱―色―情人 | 97精品人人妻人人 | 羞视频在线观看 | 亚洲精品网站在线 | 1024福利 | 国产成人精品一区二区三区免费 | 日本毛片在线 | 免费二区| se在线观看 | 亚洲第一页夜 | 激情文学亚洲色图 | 国产精品免费精品一区 | 在线播放网址 | 尤物在线视频观看 | 亚洲日本japanese丝袜 | 黄色av大片| wwwa级片 | 国产精品久久久久久久久久久久久 | 国内久久久久 | 黑人激情视频 | av在线黄色 | 一级绝黄 | 日日骚一区二区 | 国产欧美精品久久 | 国产高潮流白浆喷水视频 | 一区二区三区www | 欧美综合色区 | 日韩一中文字幕 | 1769国产| 中文字幕一区二区三区波野结 | 深夜视频在线免费观看 | 欧美在线一区二区三区四区 | 久久手机看片 | 久久91久久 | 激情五月婷婷久久 | 亚洲欧洲国产视频 | 亚洲综合p | 岛国av动作片 | 日本青青草视频 | 第一页在线视频 | 国产内谢| 亚洲精视频 | 国产欧美一区二区三区鸳鸯浴 | 国产一在线 | 最近中文在线观看 | 成人欧美一区二区三区黑人孕妇 | 亚洲国产精品久久久久爰性色 | 国产精品亚洲欧美在线播放 | 操在线视频 | 日本wwwxxx| 国产精品video| 国产第一页第二页 | 欧美特黄一级 | 瑟瑟网站在线观看 | 久久精品夜 | 91丨porny丨九色 | 偷偷操网站| 久久99国产综合精品免费 | 最新av在线播放 | 欧美少妇激情 | 总裁憋尿呻吟双腿大开憋尿 | 亚洲成人免费av | 爆乳熟妇一区二区三区 | 潮喷失禁大喷水aⅴ无码 | 精品国产一区二区三区性色 | 国产激情91 | 特大黑人巨交吊性xx | 欧美 日韩 国产 精品 | 日b免费视频 | 理论视频在线观看 | 91猎奇在线观看 | 欧美国产日韩精品 | 亚洲成人国产 | 丝袜国产在线 | 国产成人免费看一级大黄 | 欧美少妇b | 一级片播放| 丁香六月啪啪 | 欧美成一区二区三区 | 天天干狠狠爱 | 国产青草 | 火影忍者羞羞漫画 | 色屁屁ts人妖系列二区 | 亚洲第一综合 | 亚洲我不卡| 屁股夹体温计调教play | 亚洲三级在线观看 | 草久在线视频 | 国产主播自拍av | 国产在线一区二区视频 | 国产尤物在线观看 | 第一av在线| 老女人性生活视频 | 国产污污 | 亚洲色在线视频 | 国产后入清纯学生妹 | 黄色在线不卡 | 国内自拍在线观看 | av夜夜操| 亚洲区一区二 | 精品伦精品一区二区三区视频 | 午夜久久 | 国产精品91一区二区 | 农村一级毛片 | 男女做激情爱呻吟口述全过程 | 精品爆乳一区二区三区 | 国产超碰精品 | 操操操综合网 | 欧美亚洲色图视频 | 久爱视频在线观看 | 日本加勒比中文字幕 | 男女搞鸡网站 | 尤物网在线 | 西西4444www大胆无视频 | 国产又大又黑又粗免费视频 | 欧美变态视频 | 超碰在线免费97 | 久久久精品人妻一区二区三区 | 九九黄色片 | 久色成人网 | 久草免费资源 | 日韩黄色免费看 | 亚洲精品在线视频观看 | 中文字幕激情 | 久久久久久欧美精品se一二三四 | 亚洲自拍激情 | 麻豆资源| 成人深夜电影 | 成人h动漫精品一区二区下载 | 夜夜嗨一区 | 在线观看的av网站 | 求av网址 | 视频一二区 | 理论片毛片 | 欧美成人va | a天堂最新地址 | 毛片在线免费观看视频 | 亚洲精品v天堂中文字幕 | 久久综合久色欧美综合狠狠 | 国产九色在线播放九色 | 亚洲成人免费网站 | 日本免费一区视频 | 人妻饥渴偷公乱中文字幕 | 视频一区二区国产 | 国内精品久久久久久久 | 欧美另类高清videos的特点 | 亚洲成人黄 | 久草五月天| 中文字幕一二三 | 日本高清视频一区二区 | 91国产视频在线播放 | 欧美日韩视频一区二区三区 | www.亚洲黄色 | 蜜桃久久精品成人无码av | 亚洲天堂2015 | 日韩在线欧美 | 久久靖品| 视频一区二区欧美 | 18在线观看免费入口 | 粗大的内捧猛烈进出在线视频 | 原创真实夫妻啪啪av | 亚洲一区有码 | 在线观看黄色 | wwwjavhd| 不卡在线一区二区 | 牛牛超碰| 亚洲天堂日韩av | www.一区二区三区 | 亚洲伊人婷婷 | 精品国产av 无码一区二区三区 | 在线视频欧美一区 | 国产精品夜夜躁视频 | 男男做爰猛烈啪啪高 | 日韩欧美一级在线 | 美女露出粉嫩尿囗让男人桶 | 亚洲一区二区在线免费 | 综合色导航 | 精品国产乱码久久久久久浪潮 | 欧美日韩黄 | 天天插夜夜操 | 在线观看日本网站 | 国产精彩视频一区 | 日本少妇性生活 | 国产吞精囗交久久久 | 久久av一区二区三 | 日韩精品电影一区 | 国产综合视频一区 | 亚洲精品美女网站 | 成人黄色免费在线观看 | 国产精品无码AV | 开心激情av| 色综合色| 国内精品免费 | 日本大奶少妇 | 伊人天天操 | 亚洲一区二区av在线 | 亚洲欧美综合自拍 | 香蕉视频在线免费播放 | 欧美午夜一区二区 | 欧美一线天 | 久久久精品国产sm调教 | 无码人妻精品一区二区三区9厂 | h文在线观看 | 91嫩草入口 | 91福利一区二区 |