九九久久精品免费观看,蜜臀av午夜福利在线,后入内射无码人妻一区,六月婷婷精品视频在线观看,一区二区三区婷婷中文字幕,51精品免费视频国产专区,JIZZJIZZ国产,国产极品女主播国产区,亚洲一区二区三区国产精品 ,免费一看一级毛片

歡迎來到合成化學產(chǎn)業(yè)資源聚合服務(wù)平臺化學加!客服熱線 020-29116151、29116152

北大團隊發(fā)布化學大模型基準SUPERChem:挑戰(zhàn)多模態(tài)高難度化學推理

來源:北京大學化學與分子工程學院      2025-12-25
導讀: 近日,北京大學化學與分子工程學院與計算中心、計算機學院、元培學院的聯(lián)合團隊,在 arXiv 預印本平臺發(fā)布了最新成果 SUPERChem。該研究針對當前化學領(lǐng)域基準測試中存在的題目難度有限、多模態(tài)與推理過程評估缺失等不足,系統(tǒng)構(gòu)建了一個專注于評估大語言模型多模態(tài)化學推理能力的新型基準,旨在推動更全面、深入的化學智能評測體系的發(fā)展。

——背景——

 

  2025年,隨著開源推理模型 DeepSeek-R1 推出,LLM 在“深度思考”范式下飛速發(fā)展。LLM 在自然科學領(lǐng)域的應(yīng)用已從簡單問答轉(zhuǎn)向復雜科學推理。然而,現(xiàn)有通用科學基準測試已趨于飽和,前沿模型在 GPQA Diamond 上的分數(shù)也已經(jīng)超過90分;化學領(lǐng)域?qū)S没鶞释P(guān)注基礎(chǔ)化學能力、化學信息學任務(wù)等,缺乏對化學領(lǐng)域深度推理能力的考察。

 

  從基礎(chǔ)教育、化學奧林匹克競賽到大學乃至研究生階段,化學學習始終強調(diào)知識的綜合運用與多步推理。這一學習過程能有效考察復雜化學問題的解決能力,成為評估化學推理水平的理想場景。相應(yīng)地,要設(shè)計出適用于此類評估的高質(zhì)量題目,必須將抽象概念與具體情境深度融合,構(gòu)建出層層遞進的推理鏈條,這對出題者的專業(yè)素養(yǎng)提出了極高要求。北京大學化學與分子工程學院擁有國內(nèi)水平頂尖的本科生和研究生群體,他們兼具扎實的學科功底與豐富的解題、命題經(jīng)驗,能夠?qū)σ延蓄}目素材進行準確評估與合理優(yōu)化。

 

  北京大學研究團隊充分發(fā)揮這一獨特優(yōu)勢,召集大量優(yōu)秀學生共同構(gòu)建了 SUPERChem 基準測試,填補了現(xiàn)有評估體系在多模態(tài)化學深度推理方面的空白。

  

SUPERChem Overview

圖1. SUPERChem 總覽與例題

  

——數(shù)據(jù)構(gòu)建——

 

圖2. SUPERChem 題庫的三階段審核流程

 

  SUPERChem 題庫由近百名北京大學化學專業(yè)的師生共同構(gòu)建,涵蓋題目編寫、解析撰寫以及嚴格的三階段審核流程。題目來源于高難度非公開化學競賽模擬題、北大化院內(nèi)部試題及專業(yè)文獻改編,并采用嚴謹?shù)姆佬孤┻x擇題設(shè)計,避免 LLM 作答時依賴自身記憶或從選項逆推取巧。

 

  化學學科的學習和研究需要使用多樣的圖像,例如分子結(jié)構(gòu)、晶體結(jié)構(gòu)、光譜等,表達豐富的信息。針對化學的多模態(tài)特性,SUPERChem 同步提供了圖文交錯與純文本兩個版本的對齊數(shù)據(jù)集。這一設(shè)計不僅能深入評估 LLM 的跨模態(tài)化學推理能力,還為系統(tǒng)探究視覺信息對推理過程的影響提供了基礎(chǔ)。

 

  目前,SUPERChem 先期發(fā)布500 道專家級精選題目,覆蓋結(jié)構(gòu)與性質(zhì)、化學反應(yīng)與合成、化學原理與計算、實驗設(shè)計與分析四大化學核心領(lǐng)域。為了細粒度地評估 LLM 的思考過程, SUPERChem 創(chuàng)新性地引入推理路徑一致性( Reasoning Path Fidelity, RPF )指標。研究團隊為每道題目撰寫了包含關(guān)鍵檢查點( Checkpoints )的詳細解析,通過自動化評估 LLM 生成的思維鏈與解析的一致性,從而有效區(qū)分模型是真正“理解”化學原理,還是僅憑啟發(fā)式猜測偶然答對。

 

——評測結(jié)果——

 

  1. 前沿模型接近低年級本科生水平,不同模型推理一致性存在差異

 

      評測結(jié)果顯示,SUPERChem 具有較高的題目難度和區(qū)分度。在北京大學化學專業(yè)低年級本科生的閉卷測試中,人類基線準確率為 40.3%。

     

    表1. 前沿模型在SUPERChem上的表現(xiàn)

     

      在參與評測的前沿模型中,表現(xiàn)最佳的 GPT-5 (High) 準確率達到 38.5%,Gemini-2.5-Pro 以 37.9% 緊隨其后,開源模型 DeepSeek-V3.1-Think 也取得了 37.3% 的成績。這表明以上模型的化學推理能力僅與化學專業(yè)低年級本科生水平相當,尚未展現(xiàn)出超越人類基礎(chǔ)專業(yè)認知的優(yōu)勢。

     

    Accuracy vs RPF

    圖3. 前沿模型的正確率與 RPF 關(guān)系

     

      分析 RPF 指標可見,不同模型的推理過程質(zhì)量存在明顯差異。Gemini-2.5-Pro 和 GPT-5 (High) 在取得較高準確率的同時,其推理過程也較好地符合專家邏輯;而 DeepSeek-V3.1-Think 雖然準確率相近,但其 RPF 得分相對較低,反映其更傾向通過非標準的啟發(fā)式路徑得出結(jié)論。

     

      2. 多模態(tài)信息的“雙刃劍”效應(yīng)

     

      Multimodal Subset Comparison

      圖4:輸入模態(tài)對不同模型的影響

       

        為探究輸入模態(tài)對模型表現(xiàn)的影響,研究團隊進一步分析了必須依賴多模態(tài)輸入的題目子集的測試結(jié)果。視覺信息對不同模型的影響方向與程度不一。對于如 Gemini-2.5-Pro 的強推理能力模型,圖像輸入可帶來準確率的提升;而隨著推理能力的減弱,如 GPT-4o 等模型,圖像信息反而成為干擾,導致準確率下降。這為大模型在科學領(lǐng)域的應(yīng)用提供了參考:在使用不同能力的模型時,需要選擇合適的輸入模態(tài)。

       

        3. 推理斷點分析:模型倒在了哪一步?

       

          為了進一步探究 LLM 推理失敗的深層原因,研究團隊對題目解析中的關(guān)鍵檢查點進行了細粒度能力分類,并進行了推理斷點分析( First Breakpoint Analysis )。結(jié)果表明,前沿模型的推理鏈條并非斷裂于后續(xù)的復雜步驟,而是集中于產(chǎn)物結(jié)構(gòu)預測( 2.4 )、反應(yīng)機理/中間體識別( 2.2 )、構(gòu)效關(guān)系分析( 1.7 )等需要高階化學推理能力的環(huán)節(jié)上。這反映出當前模型雖具備較強的計算與公式推導能力,但在涉及反應(yīng)性與分子結(jié)構(gòu)理解的化學核心任務(wù)上仍存在明顯短板。

         

        Reasoning Breakpoint Distribution

        圖5. 推理斷點所屬化學能力分布

         

        ——總結(jié)——

         

          綜上所述,SUPERChem 為系統(tǒng)評估大語言模型的化學推理能力提供了細致、可靠的基準。評測結(jié)果指出,當前前沿模型的化學能力仍處于基礎(chǔ)水平,在涉及高階化學推理能力的任務(wù)上存在明顯局限,為后續(xù)模型的針對性優(yōu)化提供了明確方向。

         

        ——團隊介紹——

         

          SUPERChem 項目由北京大學化學與分子工程學院與元培學院的趙澤華、黃志賢、李雋仁、和林思宇同學領(lǐng)銜完成。近百位北京大學化學專業(yè)的博士生與高年級本科生參與了 SUPERChem 題庫的構(gòu)建與審核,其中包括多位國際化學奧林匹克( IChO )獲獎選手與和中國化學奧林匹克( CChO )決賽獲獎選手。174位北京大學化學專業(yè)低年級本科生參與了人類基線測試。

         

          SUPERChem 項目在北京大學化學與分子工程學院裴堅老師、高珍老師,計算中心馬皓老師,以及計算機學院楊仝老師的指導下開展。項目獲得了北京大學計算中心與高性能計算平臺的計算資源支持,來自 Chemy、好未來、質(zhì)心教育等教育培訓機構(gòu)和化學與分子工程學院鄒鵬、鄭捷等多位教授的題目素材,以及高楊老師、龍汀汀老師的專業(yè)支持。

         

          項目資源

          論文:https://arxiv.org/abs/2512.01274

          數(shù)據(jù)集:https://huggingface.co/datasets/ZehuaZhao/SUPERChem

          平臺網(wǎng)站:https://superchem.pku.edu.cn/


        聲明:化學加刊發(fā)或者轉(zhuǎn)載此文只是出于傳遞、分享更多信息之目的,并不意味認同其觀點或證實其描述。若有來源標注錯誤或侵犯了您的合法權(quán)益,請作者持權(quán)屬證明與本網(wǎng)聯(lián)系,我們將及時更正、刪除,謝謝。 電話:18676881059,郵箱:gongjian@www.yqxsz.com

        精品国产综合一区二区三区| 5555国产在线观看| 亚洲欧洲日产国码高潮αv| 精品人妻av一区二区三区| 国产理论最新国产精品视频 | 亚洲欧美日韩中字综合| 艳妇乳肉豪妇荡乳xxx| 人妻少妇精品无码专区二区 | 天天做天天爱夜夜爽毛片毛片| 亚洲欧美日韩精品香蕉| 中国女人内谢69xxxx| 97人妻免费碰视频碰免| 1插菊花综合网| 精品97国产免费人成视频| 伊人久久大香线焦av综合影院 | 黑巨茎大战俄罗斯美女| 国产精品一区二区三区黄色| 日韩av毛片福利国产福利| 久久天天躁狠狠躁夜夜躁| 国产精品香港三级国产av| 一区二区三区精品视频日本| 欧美狠狠干| 国产一级一片免费播放| 亚洲欧洲中文日韩久久av乱码| 亚洲香蕉av一区二区蜜桃| 国产成人无码国产亚洲| 无码不卡中文字幕av| 亚洲一区二区三区精品在线看| 亚洲产国偷v产偷v自拍色戒| 日韩福利片午夜免费观着| 999国内精品视频免费| 在线视频 一区 色| 亚洲高潮喷水无码AV电影| 最近中文字幕完整版hd| 色婷婷五月综合激情中文字幕| 国产一级毛片卡| 国产激情福利短视频在线| 国产精品XXXX国产喷水| 一区二区亚洲精品国产精华液| 亚洲av永久无码精品漫画| 国产一区二区丝袜高跟鞋|