智東西
(資料圖片)
作者 | 李水青
編輯 | 心緣
智東西10月13日?qǐng)?bào)道,近日,西湖大學(xué)研究團(tuán)隊(duì)推出一款“AI科學(xué)家”智能體系統(tǒng)——DeepScientist,首次大規(guī)模實(shí)證AI能夠在前沿科學(xué)任務(wù)上逐步超越人類(lèi)的SOTA(行業(yè)最佳)。
▲DeepScientist開(kāi)源界面
DeepScientist僅用兩周就取得了相當(dāng)于人類(lèi)研究者三年研究成果的進(jìn)展。研發(fā)團(tuán)隊(duì)通過(guò)三個(gè)前沿AI任務(wù)——智能體故障歸因、大語(yǔ)言模型推理加速和AI文本檢測(cè),對(duì)此進(jìn)行了驗(yàn)證。
▲DeepScientist用兩周就取得相當(dāng)于人類(lèi)三年研究成果的進(jìn)展
結(jié)果非常亮眼:DeepScientist僅用16塊H800 GPU,花了一個(gè)月,最后在三個(gè)任務(wù)上都超過(guò)了人類(lèi)的最先進(jìn)方法——分別提升了183.7%、1.9%和7.9%。截至2025年9月,這一成績(jī)也超越了DeepSeek-R1、Claude-4-Sonnet、Qwen3-Coder等前沿模型。
▲DeepScientist在三個(gè)任務(wù)上都超過(guò)了人類(lèi)的最先進(jìn)方法
在這個(gè)過(guò)程中,DeepScientist就像人類(lèi)科學(xué)家一樣,明確目標(biāo)、提假設(shè)、做驗(yàn)證、分析結(jié)果,還會(huì)一邊記憶一邊探索新方向。它總共想出約5000個(gè)科研點(diǎn)子,驗(yàn)證了1100個(gè),最終有21個(gè)帶來(lái)了科學(xué)創(chuàng)新。團(tuán)隊(duì)強(qiáng)調(diào),這些點(diǎn)子都是通過(guò)自主重新設(shè)計(jì)核心方法,而非簡(jiǎn)單組合現(xiàn)有技術(shù)。
在使用DeepReviewer與其他AI科學(xué)家系統(tǒng)的28篇公開(kāi)論文進(jìn)行基準(zhǔn)測(cè)試時(shí),DeepScientist是唯一能產(chǎn)出接受率達(dá)60%的論文的AI科學(xué)家系統(tǒng)。
▲DeepScientist接受率達(dá)60%
背后,DeepScientist的創(chuàng)新之處在于將科學(xué)發(fā)現(xiàn)形式化為一個(gè)貝葉斯優(yōu)化問(wèn)題,其架構(gòu)通過(guò)一個(gè)配備開(kāi)放知識(shí)系統(tǒng)和持續(xù)積累的發(fā)現(xiàn)記憶(Findings Memory)的多智能體系統(tǒng),平衡對(duì)新假設(shè)的探索與利用,從而在預(yù)算受限的情況下最大限度地提高發(fā)現(xiàn)效率。
DeepScientist將采取四階段漸進(jìn)式開(kāi)源。其目前已開(kāi)源了前端和后端代碼,并邀請(qǐng)小部分用戶(hù)試用;計(jì)劃在10月15日之前開(kāi)源基礎(chǔ)組件,支持用戶(hù)構(gòu)建自己的DeepScientist,11月之后還將發(fā)布實(shí)驗(yàn)數(shù)據(jù)以及開(kāi)源DeepScientist的源代碼。
▲DeepScientist論文截圖
GitHub地址:
https://github.com/ResearAI/DeepScientist
論文地址:
https://arxiv.org/abs/2509.26603
體驗(yàn)申請(qǐng)地址:
http://ai-researcher.net/
一、3個(gè)AI任務(wù)驗(yàn)證:兩周取得人類(lèi)三年研究成果,超越人類(lèi)183.7%
盡管此前的AI科研系統(tǒng)已能想出一些新點(diǎn)子,但它們往往缺乏針對(duì)性,無(wú)法解決緊迫的人類(lèi)定義挑戰(zhàn),難以產(chǎn)出具有科學(xué)價(jià)值的成果。
西湖大學(xué)研究團(tuán)隊(duì)推出的DeepScientist系統(tǒng),試圖通過(guò)在長(zhǎng)達(dá)數(shù)月的時(shí)間里進(jìn)行目標(biāo)導(dǎo)向的、完全自主的科學(xué)發(fā)現(xiàn),來(lái)克服這一局限。
首先來(lái)看看三個(gè)AI任務(wù),DeepScientist是如何取得科研成果的。
第一個(gè)AI任務(wù)是具有較高復(fù)雜度的“智能體故障歸因”,即找出多AI系統(tǒng)里哪個(gè)AI導(dǎo)致任務(wù)失敗。
DeepScientist發(fā)現(xiàn)當(dāng)前方法缺乏歸因所必需的反事實(shí)推理能力。通過(guò)反復(fù)試驗(yàn)、不斷糾錯(cuò)以及綜合新發(fā)現(xiàn),最終提出了一種名為A2P(Abduction-Action-Prediction,溯因-行動(dòng)-預(yù)測(cè))的全新方法。
其核心創(chuàng)新在于將任務(wù)從簡(jiǎn)單的模式識(shí)別提升到結(jié)構(gòu)化的因果推理,通過(guò)預(yù)測(cè)某個(gè)提議的解決方案是否本可帶來(lái)成功,填補(bǔ)了反事實(shí)能力方面的關(guān)鍵空白。
這種新方法在Who&When基準(zhǔn)測(cè)試的“算法生成”設(shè)置中獲得了47.46分,比人類(lèi)的SOTA基準(zhǔn)提高了183.7%。截至2025年9月,無(wú)需訓(xùn)練的A2P方法仍保持著最先進(jìn)水平的地位,也高于DeepSeek-R1、Claude-4-Sonnet、Qwen3-Coder、Gemini 2.5 Pro、GPT-OSS-120B的成績(jī)。
▲DeepScientist完成的研究論文截圖
論文地址:
https://github.com/ResearAI/DeepScientist/blob/main/case/DS_A2P.pdf
二是大語(yǔ)言模型的推理加速任務(wù),即讓大語(yǔ)言模型運(yùn)算更快。
此過(guò)程中,系統(tǒng)進(jìn)行了許多不同的嘗試,例如使用卡爾曼濾波器動(dòng)態(tài)調(diào)整鄰接矩陣,以解決原始方法缺乏記憶功能的問(wèn)題。盡管這些嘗試大多失敗了,但系統(tǒng)生成的ACRA方法最終通過(guò)識(shí)別穩(wěn)定的后綴模式,如圖3所示,將MPBB從人類(lèi)的最優(yōu)水平190.25 tokens/秒提升到了193.90 tokens/秒。
從科學(xué)角度而言,這項(xiàng)創(chuàng)新意義重大,因?yàn)樗眠@些額外的上下文信息動(dòng)態(tài)調(diào)整解碼猜測(cè),有效地為該過(guò)程植入了長(zhǎng)期記憶,打破了標(biāo)準(zhǔn)解碼器的上下文坍縮問(wèn)題。這一發(fā)現(xiàn)凸顯了該系統(tǒng)的主要目標(biāo):創(chuàng)造人類(lèi)未知的新知識(shí),而非僅僅進(jìn)行工程優(yōu)化。
▲DeepScientist將MPBB提升到了193.90 tokens/秒
(該論文暫未上傳GitHub)
三是AI文本檢測(cè),即讓它判斷一段文字是人類(lèi)寫(xiě)的還是AI寫(xiě)的。
DeepScientist僅用兩周就取得了相當(dāng)于人類(lèi)三年研究成果的進(jìn)展。它通過(guò)在無(wú)需人類(lèi)干預(yù)的情況下,實(shí)現(xiàn)目標(biāo)導(dǎo)向、持續(xù)且迭代式的科學(xué)發(fā)現(xiàn),克服了傳統(tǒng)研究效率低的難題。
DeepScientist自主生成了2472個(gè)獨(dú)特的研究思路,實(shí)現(xiàn)了600個(gè)最有前景的假設(shè),并最終開(kāi)發(fā)出在RAID數(shù)據(jù)集上將AUROC得分提高7.9%的方法,同時(shí)降低了推理延遲。
該系統(tǒng)產(chǎn)生了三種截然不同、且性能逐步提升的方法:T-Detect、TDT和PA-Detect。
首先,T-Detect通過(guò)穩(wěn)健的t分布修正了核心統(tǒng)計(jì)數(shù)據(jù),隨后,TDT和PA-Detect在概念上進(jìn)行了演進(jìn),它們將文本視為一種信號(hào),并使用小波和相位一致性分析來(lái)精確定位異常。從科學(xué)角度來(lái)看,這種轉(zhuǎn)變揭示了AI生成文本的“非平穩(wěn)性”,緩解了先前范式中因平均化局部證據(jù)而產(chǎn)生的信息瓶頸。
如下圖所示,這一完整的發(fā)現(xiàn)軌跡展示了DeepScientist在逐步推進(jìn)前沿科學(xué)發(fā)現(xiàn)方面的能力,它建立了新的SOTA,AUROC提高了7.9%,同時(shí)推理速度也提升了一倍。
▲DeepScientist在AUROC得分提高了7.9%
▲DeepScientist完成的研究論文截圖
論文地址:
https://github.com/ResearAI/DeepScientist/blob/main/case/DS_TDT.pdf
▲DeepScientist完成的研究論文截圖
論文地址:
https://github.com/ResearAI/DeepScientist/blob/main/case/DS_T_Detect.pdf
二、僅用8塊英偉達(dá)H800 GPU完成AI課題,DeepScientist架構(gòu)解讀
三項(xiàng)AI任務(wù)背后,團(tuán)隊(duì)僅為DeepScientist配備了兩臺(tái)服務(wù)器,每臺(tái)服務(wù)器帶有8塊英偉達(dá)H800 GPU。
背后,DeepScientist的創(chuàng)新之處在于將科學(xué)發(fā)現(xiàn)形式化為一個(gè)貝葉斯優(yōu)化問(wèn)題,并通過(guò)“提出假設(shè)、驗(yàn)證和分析”的分層評(píng)估流程加以實(shí)現(xiàn)。在這種分層方案中,只有展現(xiàn)出潛力的研究思路才會(huì)進(jìn)入成本更高的評(píng)估階段,從而在預(yù)算受限的情況下最大限度地提高發(fā)現(xiàn)效率。
DeepScientist的架構(gòu)通過(guò)一個(gè)配備開(kāi)放知識(shí)系統(tǒng)和持續(xù)積累的發(fā)現(xiàn)記憶(Findings Memory)的多智能體系統(tǒng),實(shí)現(xiàn)了貝葉斯優(yōu)化循環(huán)。其在探索新假設(shè)與挖掘最有前景的發(fā)現(xiàn)之間實(shí)現(xiàn)智能平衡,并將最具潛力的成果推進(jìn)到更高保真度的驗(yàn)證階段。
DeepScientist基于西湖大學(xué)此前已有研發(fā)成果,僅用兩個(gè)月、花費(fèi)約10萬(wàn)美元(約合71.3萬(wàn)元人民幣)就搭建完成。來(lái)自西湖大學(xué)團(tuán)隊(duì)的文章第一作者Yixuan Weng最新采訪記錄公開(kāi),記錄如下:
1、問(wèn):你之前的項(xiàng)目是CycleResearcher。為什么將這個(gè)新項(xiàng)目命名DeepScientist為而不是DeepResearcher?
答:早在2024年9月,我就計(jì)劃將我現(xiàn)在的工作命名為“DeepResearcher”,類(lèi)似于DeepReviewer。然而,OpenAI后來(lái)用了這個(gè)名字。所以我決定將我的項(xiàng)目命名為DeepScientist。
2、問(wèn):什么時(shí)候開(kāi)源?
答:我會(huì)在確保足夠安全的情況下才會(huì)開(kāi)源,因?yàn)槲疫€不能完全確定它DeepScientist給學(xué)術(shù)界帶來(lái)的益處是否大于其潛在的風(fēng)險(xiǎn)。因此,我必須采取謹(jǐn)慎的態(tài)度。
(問(wèn):為什么要采取分階段開(kāi)源策略?)
因?yàn)樯鐓^(qū)熱情高漲——幾乎每個(gè)人都迫不及待地想讓我開(kāi)源它!我計(jì)劃利用國(guó)慶節(jié)和中秋節(jié)假期來(lái)修改代碼,以便社區(qū)能夠盡早體驗(yàn)該系統(tǒng),并探索它如何加速不同領(lǐng)域的科學(xué)發(fā)現(xiàn)。
感謝中關(guān)村研究院的支持,我們將能夠免費(fèi)向社區(qū)提供完整的DeepScientist系統(tǒng)。
3、問(wèn):我有機(jī)會(huì)重現(xiàn)或改進(jìn)DeepScientist嗎?
答:當(dāng)然!我們只用了兩個(gè)月就基于ResearStudio構(gòu)建了它。我相信你可以輕松創(chuàng)建類(lèi)似“Open-DeepScientist”或“nano-DeepScientist”的項(xiàng)目。我們強(qiáng)烈鼓勵(lì)社區(qū)開(kāi)展此類(lèi)項(xiàng)目。
(ResearStudio是首個(gè)用于構(gòu)建可人工干預(yù)的深度研究智能體的開(kāi)源框架。它實(shí)現(xiàn)了人機(jī)實(shí)時(shí)協(xié)作,允許用戶(hù)在執(zhí)行過(guò)程中暫停、編輯和引導(dǎo)AI智能體,而非傳統(tǒng)的“發(fā)射后不管”模式。其Agent核心層采用了規(guī)劃器(GPT-4)和執(zhí)行器(GPT-4o-mini/o3)。)
GitHub地址:
https://github.com/ResearAI/ResearStudio?tab=readme-ov-file
4、問(wèn):您是否認(rèn)為AI驅(qū)動(dòng)的科學(xué)發(fā)現(xiàn)存在縮放定律?
答:我堅(jiān)信AI驅(qū)動(dòng)的科學(xué)發(fā)現(xiàn)遵循其自身的“縮放定律”。但這并非孤立現(xiàn)象——它是人類(lèi)不斷加速的科學(xué)發(fā)現(xiàn)的自然延伸和放大。縱觀歷史,科學(xué)進(jìn)步的速度一直在不斷加快,在現(xiàn)代,這種加速尤為明顯。從中學(xué)開(kāi)始,我就喜歡玩《席德·梅爾的文明》,游戲中知識(shí)和技術(shù)的積累會(huì)更快地帶來(lái)“尤里卡時(shí)刻”。我相信,我們現(xiàn)在正在進(jìn)入一個(gè)由AI驅(qū)動(dòng)的現(xiàn)實(shí)世界的“尤里卡時(shí)代”。
5、問(wèn):目前,所謂的“AI科學(xué)家”看起來(lái)更像是“高通量試錯(cuò)機(jī)器”,而不是真正具有深刻洞察力的“發(fā)現(xiàn)者”。我們?nèi)绾尾拍芴嵘麄兊目茖W(xué)直覺(jué)?
答:首先,隨著模型能力的提升,我已經(jīng)感受到它們識(shí)別科學(xué)問(wèn)題局限性的能力在提升。早期的DeepSeek-R1版本,它的觀察結(jié)果非常膚淺。但Qwen-3-235B-Thinking-2507發(fā)布后,它的洞察力和假設(shè)生成能力明顯提升。在我看來(lái),只有比Qwen-3-235B版本更強(qiáng)大的模型才能產(chǎn)生真正有價(jià)值的發(fā)現(xiàn)。
RLVR(基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí))是一個(gè)很有前景的方向,但它也面臨挑戰(zhàn):成本高昂、訓(xùn)練效率低,大約需要1000個(gè)GPU小時(shí)才能生成一個(gè)有用的樣本。
6、問(wèn):這項(xiàng)研究的總成本約為10萬(wàn)美元(約合71.3萬(wàn)元人民幣)。與資助一名人類(lèi)博士生進(jìn)行類(lèi)似研究周期相比,您認(rèn)為目前這筆費(fèi)用是否劃算?
答:我認(rèn)為兩者各有優(yōu)勢(shì)。失敗是成功之母,而AI最大的優(yōu)勢(shì)在于它能夠持續(xù)探索而不疲倦。
一方面,我們可以依靠AI嘗試許多不同的策略——即使發(fā)現(xiàn)某種方法在某個(gè)領(lǐng)域失敗了,本身也是一個(gè)有意義的發(fā)現(xiàn)。另一方面,這僅僅是個(gè)開(kāi)始。未來(lái)幾年,由于能力的提升和推理成本的降低,AI的成本將大幅下降。
7、問(wèn):您論文中最令人興奮的發(fā)現(xiàn)之一是計(jì)算資源與研究產(chǎn)出之間的“近線性關(guān)系”。您預(yù)測(cè)這種趨勢(shì)會(huì)隨著GPU數(shù)量的增加而無(wú)限期地持續(xù)下去嗎?還是很快就會(huì)遇到瓶頸?下一個(gè)瓶頸可能是什么?
答:我認(rèn)為這種情況不會(huì)無(wú)限期地持續(xù)下去。我們即將遇到瓶頸。下一個(gè)瓶頸將是“探索效率”,而不是“探索規(guī)模”。目前,大多數(shù)計(jì)算資源都浪費(fèi)在低價(jià)值的探索上。未來(lái)的挑戰(zhàn)是如何避免這種低價(jià)值的工作。
雖然DeepScientist偶爾會(huì)通過(guò)反復(fù)試驗(yàn)發(fā)現(xiàn)新的方法來(lái)提高性能,但收益往往微乎其微。只有當(dāng)我們能夠進(jìn)行大規(guī)模、高價(jià)值的探索時(shí),真正的突破才會(huì)到來(lái)。
8、問(wèn):還有其他驚喜嗎?
答:是的!10月初,我們雙方將全面開(kāi)源一款工具。我相信每位研究人員都會(huì)對(duì)此感興趣——它顯著增強(qiáng)了DeepScientist的演示能力。
三、4步漸進(jìn)式開(kāi)源:10月中用戶(hù)可構(gòu)建自己的AI科學(xué)家
DeepScientist的整個(gè)開(kāi)源計(jì)劃會(huì)分為四個(gè)階段。
階段0:通用智能體框架
西湖大學(xué)已經(jīng)在ResearAI/ResearStudio開(kāi)源了前端和后端代碼。用戶(hù)可以以此為基礎(chǔ),使用自己的自定義工具構(gòu)建各種專(zhuān)業(yè)的Agent。
GitHub地址:
https://github.com/ResearAI/ResearStudio
第一階段:基于應(yīng)用程序的訪問(wèn)(預(yù)計(jì)在10月1日之前)
為了確保安全,西湖大學(xué)團(tuán)隊(duì)將邀請(qǐng)一小部分用戶(hù)試用DeepScientist,共同完善該框架。如果用戶(hù)有準(zhǔn)備探索的任務(wù),可以填寫(xiě)其等候名單表格。
申請(qǐng)地址:
https://forms.gle/8FnGgqgBVEKv3q6a7
第二階段:基礎(chǔ)組件發(fā)布(預(yù)計(jì)10月15日之前)
在確保安全之后,西湖大學(xué)團(tuán)隊(duì)將開(kāi)源基礎(chǔ)組件。在此階段,用戶(hù)可以立即開(kāi)始構(gòu)建自己的DeepScientist,或者復(fù)制西湖大學(xué)團(tuán)隊(duì)的工作。
第三階段:實(shí)驗(yàn)數(shù)據(jù)發(fā)布(預(yù)計(jì)11月之后)
西湖大學(xué)團(tuán)隊(duì)將開(kāi)源所有約5000條假設(shè)和約1100條實(shí)驗(yàn)日志。這將是首次公開(kāi)如此大規(guī)模的AI實(shí)驗(yàn)結(jié)果數(shù)據(jù)集。
第四階段:DeepScientist源代碼發(fā)布
西湖大學(xué)團(tuán)隊(duì)將進(jìn)行長(zhǎng)期測(cè)試和調(diào)整,以防止對(duì)人類(lèi)研究造成任何潛在危害。之后,團(tuán)隊(duì)將發(fā)布DeepScientist代碼的核心架構(gòu),以促進(jìn)社區(qū)發(fā)展。
結(jié)語(yǔ):AI科學(xué)家賦能科研,進(jìn)入規(guī)模化實(shí)證階段
西湖大學(xué)研發(fā)團(tuán)隊(duì)首次通過(guò)實(shí)證展示了一個(gè)自動(dòng)化全周期科學(xué)發(fā)現(xiàn)系統(tǒng),該系統(tǒng)能夠產(chǎn)生新穎且超越現(xiàn)有最佳水平的方法,并以大幅超過(guò)人類(lèi)研究人員的速度不斷推進(jìn)科學(xué)前沿。AI有望真正推動(dòng)多個(gè)不同領(lǐng)域的前沿發(fā)展,產(chǎn)生具有持久影響的發(fā)現(xiàn),并系統(tǒng)地推進(jìn)多個(gè)領(lǐng)域的技術(shù)前沿。
不過(guò),團(tuán)隊(duì)也坦言AI科研的成功率還可以繼續(xù)提升,5000個(gè)點(diǎn)子里最終僅21個(gè)能真正帶來(lái)科學(xué)突破,約60%的失敗是因?yàn)榇a實(shí)現(xiàn)出錯(cuò)。但好在它效率高,而且給它更多計(jì)算資源,它出成果的數(shù)量也會(huì)差不多成比例增加。
為了讓AI成為更得力的合作伙伴,西湖大學(xué)研發(fā)團(tuán)隊(duì)認(rèn)為,未來(lái)的工作應(yīng)聚焦于幾項(xiàng)關(guān)鍵改進(jìn):開(kāi)發(fā)模擬發(fā)現(xiàn)環(huán)境,通過(guò)強(qiáng)化學(xué)習(xí)加速學(xué)習(xí)進(jìn)程;構(gòu)建整合科學(xué)界反饋的框架;最終通過(guò)機(jī)器人技術(shù)彌合與物理科學(xué)之間的差距。