日本国产一区二区三区,国产精品久久中文字幕,国产高潮精品一区二区三区av

北大團隊發(fā)布化學大模型基準SUPERChem：挑戰(zhàn)多模態(tài)高難度化學推理

來源：北京大學化學與分子工程學院 2025-12-25

導讀：　近日，北京大學化學與分子工程學院與計算中心、計算機學院、元培學院的聯(lián)合團隊，在 arXiv 預印本平臺發(fā)布了最新成果 SUPERChem。該研究針對當前化學領(lǐng)域基準測試中存在的題目難度有限、多模態(tài)與推理過程評估缺失等不足，系統(tǒng)構(gòu)建了一個專注于評估大語言模型多模態(tài)化學推理能力的新型基準，旨在推動更全面、深入的化學智能評測體系的發(fā)展。

——背景——

　　2025年，隨著開源推理模型 DeepSeek-R1 推出，LLM 在“深度思考”范式下飛速發(fā)展。LLM 在自然科學領(lǐng)域的應(yīng)用已從簡單問答轉(zhuǎn)向復雜科學推理。然而，現(xiàn)有通用科學基準測試已趨于飽和，前沿模型在 GPQA Diamond 上的分數(shù)也已經(jīng)超過90分；化學領(lǐng)域?qū)Ｓ没鶞释P(guān)注基礎(chǔ)化學能力、化學信息學任務(wù)等，缺乏對化學領(lǐng)域深度推理能力的考察。

　　從基礎(chǔ)教育、化學奧林匹克競賽到大學乃至研究生階段，化學學習始終強調(diào)知識的綜合運用與多步推理。這一學習過程能有效考察復雜化學問題的解決能力，成為評估化學推理水平的理想場景。相應(yīng)地，要設(shè)計出適用于此類評估的高質(zhì)量題目，必須將抽象概念與具體情境深度融合，構(gòu)建出層層遞進的推理鏈條，這對出題者的專業(yè)素養(yǎng)提出了極高要求。北京大學化學與分子工程學院擁有國內(nèi)水平頂尖的本科生和研究生群體，他們兼具扎實的學科功底與豐富的解題、命題經(jīng)驗，能夠?qū)σ延蓄}目素材進行準確評估與合理優(yōu)化。

　　北京大學研究團隊充分發(fā)揮這一獨特優(yōu)勢，召集大量優(yōu)秀學生共同構(gòu)建了 SUPERChem 基準測試，填補了現(xiàn)有評估體系在多模態(tài)化學深度推理方面的空白。

SUPERChem Overview

圖1. SUPERChem 總覽與例題

——數(shù)據(jù)構(gòu)建——

圖2. SUPERChem 題庫的三階段審核流程

　　SUPERChem 題庫由近百名北京大學化學專業(yè)的師生共同構(gòu)建，涵蓋題目編寫、解析撰寫以及嚴格的三階段審核流程。題目來源于高難度非公開化學競賽模擬題、北大化院內(nèi)部試題及專業(yè)文獻改編，并采用嚴謹?shù)姆佬孤┻x擇題設(shè)計，避免 LLM 作答時依賴自身記憶或從選項逆推取巧。

　　化學學科的學習和研究需要使用多樣的圖像，例如分子結(jié)構(gòu)、晶體結(jié)構(gòu)、光譜等，表達豐富的信息。針對化學的多模態(tài)特性，SUPERChem 同步提供了圖文交錯與純文本兩個版本的對齊數(shù)據(jù)集。這一設(shè)計不僅能深入評估 LLM 的跨模態(tài)化學推理能力，還為系統(tǒng)探究視覺信息對推理過程的影響提供了基礎(chǔ)。

　　目前，SUPERChem 先期發(fā)布500 道專家級精選題目，覆蓋結(jié)構(gòu)與性質(zhì)、化學反應(yīng)與合成、化學原理與計算、實驗設(shè)計與分析四大化學核心領(lǐng)域。為了細粒度地評估 LLM 的思考過程， SUPERChem 創(chuàng)新性地引入推理路徑一致性（ Reasoning Path Fidelity, RPF ）指標。研究團隊為每道題目撰寫了包含關(guān)鍵檢查點（ Checkpoints ）的詳細解析，通過自動化評估 LLM 生成的思維鏈與解析的一致性，從而有效區(qū)分模型是真正“理解”化學原理，還是僅憑啟發(fā)式猜測偶然答對。

——評測結(jié)果——

　　1. 前沿模型接近低年級本科生水平，不同模型推理一致性存在差異

　　評測結(jié)果顯示，SUPERChem 具有較高的題目難度和區(qū)分度。在北京大學化學專業(yè)低年級本科生的閉卷測試中，人類基線準確率為 40.3%。

表1. 前沿模型在SUPERChem上的表現(xiàn)

　　在參與評測的前沿模型中，表現(xiàn)最佳的 GPT-5 (High) 準確率達到 38.5%，Gemini-2.5-Pro 以 37.9% 緊隨其后，開源模型 DeepSeek-V3.1-Think 也取得了 37.3% 的成績。這表明以上模型的化學推理能力僅與化學專業(yè)低年級本科生水平相當，尚未展現(xiàn)出超越人類基礎(chǔ)專業(yè)認知的優(yōu)勢。

Accuracy vs RPF

圖3. 前沿模型的正確率與 RPF 關(guān)系

　　分析 RPF 指標可見，不同模型的推理過程質(zhì)量存在明顯差異。Gemini-2.5-Pro 和 GPT-5 (High) 在取得較高準確率的同時，其推理過程也較好地符合專家邏輯；而 DeepSeek-V3.1-Think 雖然準確率相近，但其 RPF 得分相對較低，反映其更傾向通過非標準的啟發(fā)式路徑得出結(jié)論。

　　2. 多模態(tài)信息的“雙刃劍”效應(yīng)

Multimodal Subset Comparison

圖4：輸入模態(tài)對不同模型的影響

　　為探究輸入模態(tài)對模型表現(xiàn)的影響，研究團隊進一步分析了必須依賴多模態(tài)輸入的題目子集的測試結(jié)果。視覺信息對不同模型的影響方向與程度不一。對于如 Gemini-2.5-Pro 的強推理能力模型，圖像輸入可帶來準確率的提升；而隨著推理能力的減弱，如 GPT-4o 等模型，圖像信息反而成為干擾，導致準確率下降。這為大模型在科學領(lǐng)域的應(yīng)用提供了參考：在使用不同能力的模型時，需要選擇合適的輸入模態(tài)。

　　3. 推理斷點分析：模型倒在了哪一步？

　　為了進一步探究 LLM 推理失敗的深層原因，研究團隊對題目解析中的關(guān)鍵檢查點進行了細粒度能力分類，并進行了推理斷點分析（ First Breakpoint Analysis ）。結(jié)果表明，前沿模型的推理鏈條并非斷裂于后續(xù)的復雜步驟，而是集中于產(chǎn)物結(jié)構(gòu)預測（ 2.4 ）、反應(yīng)機理/中間體識別（ 2.2 ）、構(gòu)效關(guān)系分析（ 1.7 ）等需要高階化學推理能力的環(huán)節(jié)上。這反映出當前模型雖具備較強的計算與公式推導能力，但在涉及反應(yīng)性與分子結(jié)構(gòu)理解的化學核心任務(wù)上仍存在明顯短板。

Reasoning Breakpoint Distribution

圖5. 推理斷點所屬化學能力分布

——總結(jié)——

　　綜上所述，SUPERChem 為系統(tǒng)評估大語言模型的化學推理能力提供了細致、可靠的基準。評測結(jié)果指出，當前前沿模型的化學能力仍處于基礎(chǔ)水平，在涉及高階化學推理能力的任務(wù)上存在明顯局限，為后續(xù)模型的針對性優(yōu)化提供了明確方向。

——團隊介紹——

　　SUPERChem 項目由北京大學化學與分子工程學院與元培學院的趙澤華、黃志賢、李雋仁、和林思宇同學領(lǐng)銜完成。近百位北京大學化學專業(yè)的博士生與高年級本科生參與了 SUPERChem 題庫的構(gòu)建與審核，其中包括多位國際化學奧林匹克（ IChO ）獲獎選手與和中國化學奧林匹克（ CChO ）決賽獲獎選手。174位北京大學化學專業(yè)低年級本科生參與了人類基線測試。

　　SUPERChem 項目在北京大學化學與分子工程學院裴堅老師、高珍老師，計算中心馬皓老師，以及計算機學院楊仝老師的指導下開展。項目獲得了北京大學計算中心與高性能計算平臺的計算資源支持，來自 Chemy、好未來、質(zhì)心教育等教育培訓機構(gòu)和化學與分子工程學院鄒鵬、鄭捷等多位教授的題目素材，以及高楊老師、龍汀汀老師的專業(yè)支持。

　　項目資源

　　論文：https://arxiv.org/abs/2512.01274

　　數(shù)據(jù)集：https://huggingface.co/datasets/ZehuaZhao/SUPERChem

　　平臺網(wǎng)站：https://superchem.pku.edu.cn/

聲明：化學加刊發(fā)或者轉(zhuǎn)載此文只是出于傳遞、分享更多信息之目的，并不意味認同其觀點或證實其描述。若有來源標注錯誤或侵犯了您的合法權(quán)益，請作者持權(quán)屬證明與本網(wǎng)聯(lián)系，我們將及時更正、刪除，謝謝。電話：18676881059，郵箱：gongjian@www.yqxsz.com

投稿合作郵箱：gongjian@www.yqxsz.com

手機號綁定

請輸入校驗碼

請選擇用戶類型

綁定企業(yè)

北大團隊發(fā)布化學大模型基準SUPERChem：挑戰(zhàn)多模態(tài)高難度化學推理

來源：北京大學化學與分子工程學院 2025-12-25