——背景——
2025年,隨著開源推理模型 DeepSeek-R1 推出,LLM 在“深度思考”范式下飛速發(fā)展。LLM 在自然科學領(lǐng)域的應(yīng)用已從簡單問答轉(zhuǎn)向復雜科學推理。然而,現(xiàn)有通用科學基準測試已趨于飽和,前沿模型在 GPQA Diamond 上的分數(shù)也已經(jīng)超過90分;化學領(lǐng)域?qū)S没鶞释P(guān)注基礎(chǔ)化學能力、化學信息學任務(wù)等,缺乏對化學領(lǐng)域深度推理能力的考察。
從基礎(chǔ)教育、化學奧林匹克競賽到大學乃至研究生階段,化學學習始終強調(diào)知識的綜合運用與多步推理。這一學習過程能有效考察復雜化學問題的解決能力,成為評估化學推理水平的理想場景。相應(yīng)地,要設(shè)計出適用于此類評估的高質(zhì)量題目,必須將抽象概念與具體情境深度融合,構(gòu)建出層層遞進的推理鏈條,這對出題者的專業(yè)素養(yǎng)提出了極高要求。北京大學化學與分子工程學院擁有國內(nèi)水平頂尖的本科生和研究生群體,他們兼具扎實的學科功底與豐富的解題、命題經(jīng)驗,能夠?qū)σ延蓄}目素材進行準確評估與合理優(yōu)化。
北京大學研究團隊充分發(fā)揮這一獨特優(yōu)勢,召集大量優(yōu)秀學生共同構(gòu)建了 SUPERChem 基準測試,填補了現(xiàn)有評估體系在多模態(tài)化學深度推理方面的空白。

圖1. SUPERChem 總覽與例題
——數(shù)據(jù)構(gòu)建——

圖2. SUPERChem 題庫的三階段審核流程
SUPERChem 題庫由近百名北京大學化學專業(yè)的師生共同構(gòu)建,涵蓋題目編寫、解析撰寫以及嚴格的三階段審核流程。題目來源于高難度非公開化學競賽模擬題、北大化院內(nèi)部試題及專業(yè)文獻改編,并采用嚴謹?shù)姆佬孤┻x擇題設(shè)計,避免 LLM 作答時依賴自身記憶或從選項逆推取巧。
化學學科的學習和研究需要使用多樣的圖像,例如分子結(jié)構(gòu)、晶體結(jié)構(gòu)、光譜等,表達豐富的信息。針對化學的多模態(tài)特性,SUPERChem 同步提供了圖文交錯與純文本兩個版本的對齊數(shù)據(jù)集。這一設(shè)計不僅能深入評估 LLM 的跨模態(tài)化學推理能力,還為系統(tǒng)探究視覺信息對推理過程的影響提供了基礎(chǔ)。
目前,SUPERChem 先期發(fā)布500 道專家級精選題目,覆蓋結(jié)構(gòu)與性質(zhì)、化學反應(yīng)與合成、化學原理與計算、實驗設(shè)計與分析四大化學核心領(lǐng)域。為了細粒度地評估 LLM 的思考過程, SUPERChem 創(chuàng)新性地引入推理路徑一致性( Reasoning Path Fidelity, RPF )指標。研究團隊為每道題目撰寫了包含關(guān)鍵檢查點( Checkpoints )的詳細解析,通過自動化評估 LLM 生成的思維鏈與解析的一致性,從而有效區(qū)分模型是真正“理解”化學原理,還是僅憑啟發(fā)式猜測偶然答對。
——評測結(jié)果——
1. 前沿模型接近低年級本科生水平,不同模型推理一致性存在差異
評測結(jié)果顯示,SUPERChem 具有較高的題目難度和區(qū)分度。在北京大學化學專業(yè)低年級本科生的閉卷測試中,人類基線準確率為 40.3%。
表1. 前沿模型在SUPERChem上的表現(xiàn)

在參與評測的前沿模型中,表現(xiàn)最佳的 GPT-5 (High) 準確率達到 38.5%,Gemini-2.5-Pro 以 37.9% 緊隨其后,開源模型 DeepSeek-V3.1-Think 也取得了 37.3% 的成績。這表明以上模型的化學推理能力僅與化學專業(yè)低年級本科生水平相當,尚未展現(xiàn)出超越人類基礎(chǔ)專業(yè)認知的優(yōu)勢。

圖3. 前沿模型的正確率與 RPF 關(guān)系
分析 RPF 指標可見,不同模型的推理過程質(zhì)量存在明顯差異。Gemini-2.5-Pro 和 GPT-5 (High) 在取得較高準確率的同時,其推理過程也較好地符合專家邏輯;而 DeepSeek-V3.1-Think 雖然準確率相近,但其 RPF 得分相對較低,反映其更傾向通過非標準的啟發(fā)式路徑得出結(jié)論。
2. 多模態(tài)信息的“雙刃劍”效應(yīng)

圖4:輸入模態(tài)對不同模型的影響
為探究輸入模態(tài)對模型表現(xiàn)的影響,研究團隊進一步分析了必須依賴多模態(tài)輸入的題目子集的測試結(jié)果。視覺信息對不同模型的影響方向與程度不一。對于如 Gemini-2.5-Pro 的強推理能力模型,圖像輸入可帶來準確率的提升;而隨著推理能力的減弱,如 GPT-4o 等模型,圖像信息反而成為干擾,導致準確率下降。這為大模型在科學領(lǐng)域的應(yīng)用提供了參考:在使用不同能力的模型時,需要選擇合適的輸入模態(tài)。
3. 推理斷點分析:模型倒在了哪一步?
為了進一步探究 LLM 推理失敗的深層原因,研究團隊對題目解析中的關(guān)鍵檢查點進行了細粒度能力分類,并進行了推理斷點分析( First Breakpoint Analysis )。結(jié)果表明,前沿模型的推理鏈條并非斷裂于后續(xù)的復雜步驟,而是集中于產(chǎn)物結(jié)構(gòu)預測( 2.4 )、反應(yīng)機理/中間體識別( 2.2 )、構(gòu)效關(guān)系分析( 1.7 )等需要高階化學推理能力的環(huán)節(jié)上。這反映出當前模型雖具備較強的計算與公式推導能力,但在涉及反應(yīng)性與分子結(jié)構(gòu)理解的化學核心任務(wù)上仍存在明顯短板。

圖5. 推理斷點所屬化學能力分布
——總結(jié)——
綜上所述,SUPERChem 為系統(tǒng)評估大語言模型的化學推理能力提供了細致、可靠的基準。評測結(jié)果指出,當前前沿模型的化學能力仍處于基礎(chǔ)水平,在涉及高階化學推理能力的任務(wù)上存在明顯局限,為后續(xù)模型的針對性優(yōu)化提供了明確方向。
——團隊介紹——
SUPERChem 項目由北京大學化學與分子工程學院與元培學院的趙澤華、黃志賢、李雋仁、和林思宇同學領(lǐng)銜完成。近百位北京大學化學專業(yè)的博士生與高年級本科生參與了 SUPERChem 題庫的構(gòu)建與審核,其中包括多位國際化學奧林匹克( IChO )獲獎選手與和中國化學奧林匹克( CChO )決賽獲獎選手。174位北京大學化學專業(yè)低年級本科生參與了人類基線測試。
SUPERChem 項目在北京大學化學與分子工程學院裴堅老師、高珍老師,計算中心馬皓老師,以及計算機學院楊仝老師的指導下開展。項目獲得了北京大學計算中心與高性能計算平臺的計算資源支持,來自 Chemy、好未來、質(zhì)心教育等教育培訓機構(gòu)和化學與分子工程學院鄒鵬、鄭捷等多位教授的題目素材,以及高楊老師、龍汀汀老師的專業(yè)支持。
項目資源
論文:https://arxiv.org/abs/2512.01274
數(shù)據(jù)集:https://huggingface.co/datasets/ZehuaZhao/SUPERChem
平臺網(wǎng)站:https://superchem.pku.edu.cn/
聲明:化學加刊發(fā)或者轉(zhuǎn)載此文只是出于傳遞、分享更多信息之目的,并不意味認同其觀點或證實其描述。若有來源標注錯誤或侵犯了您的合法權(quán)益,請作者持權(quán)屬證明與本網(wǎng)聯(lián)系,我們將及時更正、刪除,謝謝。 電話:18676881059,郵箱:gongjian@www.yqxsz.com