公么大龟弄得我好舒服秀婷视频丨伊人色综合久久天天丨欧美性xxxx极品hd欧美风情丨成人h视频在线观看丨国产综合无码一区二区色蜜蜜

首頁(yè) 合肥侵權(quán) 資訊 國(guó)內(nèi) 聚焦 教育 關(guān)注 熱點(diǎn) 要聞 民生1+1

施一公的西湖大學(xué),發(fā)了個(gè)AI科學(xué)家!首超人類(lèi)SOTA 熱文

來(lái)源:智東西    發(fā)布時(shí)間:2025-10-14 08:10:20

智東西


(資料圖片)

作者 | 李水青

編輯 | 心緣

智東西10月13日?qǐng)?bào)道,近日,西湖大學(xué)研究團(tuán)隊(duì)推出一款“AI科學(xué)家”智能體系統(tǒng)——DeepScientist,首次大規(guī)模實(shí)證AI能夠在前沿科學(xué)任務(wù)上逐步超越人類(lèi)的SOTA(行業(yè)最佳)。

▲DeepScientist開(kāi)源界面

DeepScientist僅用兩周就取得了相當(dāng)于人類(lèi)研究者三年研究成果的進(jìn)展。研發(fā)團(tuán)隊(duì)通過(guò)三個(gè)前沿AI任務(wù)——智能體故障歸因、大語(yǔ)言模型推理加速和AI文本檢測(cè),對(duì)此進(jìn)行了驗(yàn)證。

▲DeepScientist用兩周就取得相當(dāng)于人類(lèi)三年研究成果的進(jìn)展

結(jié)果非常亮眼:DeepScientist僅用16塊H800 GPU,花了一個(gè)月,最后在三個(gè)任務(wù)上都超過(guò)了人類(lèi)的最先進(jìn)方法——分別提升了183.7%、1.9%和7.9%。截至2025年9月,這一成績(jī)也超越了DeepSeek-R1、Claude-4-Sonnet、Qwen3-Coder等前沿模型。

▲DeepScientist在三個(gè)任務(wù)上都超過(guò)了人類(lèi)的最先進(jìn)方法

在這個(gè)過(guò)程中,DeepScientist就像人類(lèi)科學(xué)家一樣,明確目標(biāo)、提假設(shè)、做驗(yàn)證、分析結(jié)果,還會(huì)一邊記憶一邊探索新方向。它總共想出約5000個(gè)科研點(diǎn)子,驗(yàn)證了1100個(gè),最終有21個(gè)帶來(lái)了科學(xué)創(chuàng)新。團(tuán)隊(duì)強(qiáng)調(diào),這些點(diǎn)子都是通過(guò)自主重新設(shè)計(jì)核心方法,而非簡(jiǎn)單組合現(xiàn)有技術(shù)。

在使用DeepReviewer與其他AI科學(xué)家系統(tǒng)的28篇公開(kāi)論文進(jìn)行基準(zhǔn)測(cè)試時(shí),DeepScientist是唯一能產(chǎn)出接受率達(dá)60%的論文的AI科學(xué)家系統(tǒng)。

▲DeepScientist接受率達(dá)60%

背后,DeepScientist的創(chuàng)新之處在于將科學(xué)發(fā)現(xiàn)形式化為一個(gè)貝葉斯優(yōu)化問(wèn)題,其架構(gòu)通過(guò)一個(gè)配備開(kāi)放知識(shí)系統(tǒng)和持續(xù)積累的發(fā)現(xiàn)記憶(Findings Memory)的多智能體系統(tǒng),平衡對(duì)新假設(shè)的探索與利用,從而在預(yù)算受限的情況下最大限度地提高發(fā)現(xiàn)效率。

DeepScientist將采取四階段漸進(jìn)式開(kāi)源。其目前已開(kāi)源了前端和后端代碼,并邀請(qǐng)小部分用戶(hù)試用;計(jì)劃在10月15日之前開(kāi)源基礎(chǔ)組件,支持用戶(hù)構(gòu)建自己的DeepScientist,11月之后還將發(fā)布實(shí)驗(yàn)數(shù)據(jù)以及開(kāi)源DeepScientist的源代碼。

▲DeepScientist論文截圖

GitHub地址:

https://github.com/ResearAI/DeepScientist

論文地址:

https://arxiv.org/abs/2509.26603

體驗(yàn)申請(qǐng)地址:

http://ai-researcher.net/

一、3個(gè)AI任務(wù)驗(yàn)證:兩周取得人類(lèi)三年研究成果,超越人類(lèi)183.7%

盡管此前的AI科研系統(tǒng)已能想出一些新點(diǎn)子,但它們往往缺乏針對(duì)性,無(wú)法解決緊迫的人類(lèi)定義挑戰(zhàn),難以產(chǎn)出具有科學(xué)價(jià)值的成果。

西湖大學(xué)研究團(tuán)隊(duì)推出的DeepScientist系統(tǒng),試圖通過(guò)在長(zhǎng)達(dá)數(shù)月的時(shí)間里進(jìn)行目標(biāo)導(dǎo)向的、完全自主的科學(xué)發(fā)現(xiàn),來(lái)克服這一局限。

首先來(lái)看看三個(gè)AI任務(wù),DeepScientist是如何取得科研成果的。

第一個(gè)AI任務(wù)是具有較高復(fù)雜度的“智能體故障歸因”,即找出多AI系統(tǒng)里哪個(gè)AI導(dǎo)致任務(wù)失敗。

DeepScientist發(fā)現(xiàn)當(dāng)前方法缺乏歸因所必需的反事實(shí)推理能力。通過(guò)反復(fù)試驗(yàn)、不斷糾錯(cuò)以及綜合新發(fā)現(xiàn),最終提出了一種名為A2P(Abduction-Action-Prediction,溯因-行動(dòng)-預(yù)測(cè))的全新方法。

其核心創(chuàng)新在于將任務(wù)從簡(jiǎn)單的模式識(shí)別提升到結(jié)構(gòu)化的因果推理,通過(guò)預(yù)測(cè)某個(gè)提議的解決方案是否本可帶來(lái)成功,填補(bǔ)了反事實(shí)能力方面的關(guān)鍵空白。

這種新方法在Who&When基準(zhǔn)測(cè)試的“算法生成”設(shè)置中獲得了47.46分,比人類(lèi)的SOTA基準(zhǔn)提高了183.7%。截至2025年9月,無(wú)需訓(xùn)練的A2P方法仍保持著最先進(jìn)水平的地位,也高于DeepSeek-R1、Claude-4-Sonnet、Qwen3-Coder、Gemini 2.5 Pro、GPT-OSS-120B的成績(jī)。

▲DeepScientist完成的研究論文截圖

論文地址:

https://github.com/ResearAI/DeepScientist/blob/main/case/DS_A2P.pdf

二是大語(yǔ)言模型的推理加速任務(wù),即讓大語(yǔ)言模型運(yùn)算更快。

此過(guò)程中,系統(tǒng)進(jìn)行了許多不同的嘗試,例如使用卡爾曼濾波器動(dòng)態(tài)調(diào)整鄰接矩陣,以解決原始方法缺乏記憶功能的問(wèn)題。盡管這些嘗試大多失敗了,但系統(tǒng)生成的ACRA方法最終通過(guò)識(shí)別穩(wěn)定的后綴模式,如圖3所示,將MPBB從人類(lèi)的最優(yōu)水平190.25 tokens/秒提升到了193.90 tokens/秒。

從科學(xué)角度而言,這項(xiàng)創(chuàng)新意義重大,因?yàn)樗眠@些額外的上下文信息動(dòng)態(tài)調(diào)整解碼猜測(cè),有效地為該過(guò)程植入了長(zhǎng)期記憶,打破了標(biāo)準(zhǔn)解碼器的上下文坍縮問(wèn)題。這一發(fā)現(xiàn)凸顯了該系統(tǒng)的主要目標(biāo):創(chuàng)造人類(lèi)未知的新知識(shí),而非僅僅進(jìn)行工程優(yōu)化。

▲DeepScientist將MPBB提升到了193.90 tokens/秒

(該論文暫未上傳GitHub)

三是AI文本檢測(cè),即讓它判斷一段文字是人類(lèi)寫(xiě)的還是AI寫(xiě)的。

DeepScientist僅用兩周就取得了相當(dāng)于人類(lèi)三年研究成果的進(jìn)展。它通過(guò)在無(wú)需人類(lèi)干預(yù)的情況下,實(shí)現(xiàn)目標(biāo)導(dǎo)向、持續(xù)且迭代式的科學(xué)發(fā)現(xiàn),克服了傳統(tǒng)研究效率低的難題。

DeepScientist自主生成了2472個(gè)獨(dú)特的研究思路,實(shí)現(xiàn)了600個(gè)最有前景的假設(shè),并最終開(kāi)發(fā)出在RAID數(shù)據(jù)集上將AUROC得分提高7.9%的方法,同時(shí)降低了推理延遲。

該系統(tǒng)產(chǎn)生了三種截然不同、且性能逐步提升的方法:T-Detect、TDT和PA-Detect。

首先,T-Detect通過(guò)穩(wěn)健的t分布修正了核心統(tǒng)計(jì)數(shù)據(jù),隨后,TDT和PA-Detect在概念上進(jìn)行了演進(jìn),它們將文本視為一種信號(hào),并使用小波和相位一致性分析來(lái)精確定位異常。從科學(xué)角度來(lái)看,這種轉(zhuǎn)變揭示了AI生成文本的“非平穩(wěn)性”,緩解了先前范式中因平均化局部證據(jù)而產(chǎn)生的信息瓶頸。

如下圖所示,這一完整的發(fā)現(xiàn)軌跡展示了DeepScientist在逐步推進(jìn)前沿科學(xué)發(fā)現(xiàn)方面的能力,它建立了新的SOTA,AUROC提高了7.9%,同時(shí)推理速度也提升了一倍。

▲DeepScientist在AUROC得分提高了7.9%

▲DeepScientist完成的研究論文截圖

論文地址:

https://github.com/ResearAI/DeepScientist/blob/main/case/DS_TDT.pdf

▲DeepScientist完成的研究論文截圖

論文地址:

https://github.com/ResearAI/DeepScientist/blob/main/case/DS_T_Detect.pdf

二、僅用8塊英偉達(dá)H800 GPU完成AI課題,DeepScientist架構(gòu)解讀

三項(xiàng)AI任務(wù)背后,團(tuán)隊(duì)僅為DeepScientist配備了兩臺(tái)服務(wù)器,每臺(tái)服務(wù)器帶有8塊英偉達(dá)H800 GPU。

背后,DeepScientist的創(chuàng)新之處在于將科學(xué)發(fā)現(xiàn)形式化為一個(gè)貝葉斯優(yōu)化問(wèn)題,并通過(guò)“提出假設(shè)、驗(yàn)證和分析”的分層評(píng)估流程加以實(shí)現(xiàn)。在這種分層方案中,只有展現(xiàn)出潛力的研究思路才會(huì)進(jìn)入成本更高的評(píng)估階段,從而在預(yù)算受限的情況下最大限度地提高發(fā)現(xiàn)效率。

DeepScientist的架構(gòu)通過(guò)一個(gè)配備開(kāi)放知識(shí)系統(tǒng)和持續(xù)積累的發(fā)現(xiàn)記憶(Findings Memory)的多智能體系統(tǒng),實(shí)現(xiàn)了貝葉斯優(yōu)化循環(huán)。其在探索新假設(shè)與挖掘最有前景的發(fā)現(xiàn)之間實(shí)現(xiàn)智能平衡,并將最具潛力的成果推進(jìn)到更高保真度的驗(yàn)證階段。

DeepScientist基于西湖大學(xué)此前已有研發(fā)成果,僅用兩個(gè)月、花費(fèi)約10萬(wàn)美元(約合71.3萬(wàn)元人民幣)就搭建完成。來(lái)自西湖大學(xué)團(tuán)隊(duì)的文章第一作者Yixuan Weng最新采訪記錄公開(kāi),記錄如下:

1、問(wèn):你之前的項(xiàng)目是CycleResearcher。為什么將這個(gè)新項(xiàng)目命名DeepScientist為而不是DeepResearcher?

答:早在2024年9月,我就計(jì)劃將我現(xiàn)在的工作命名為“DeepResearcher”,類(lèi)似于DeepReviewer。然而,OpenAI后來(lái)用了這個(gè)名字。所以我決定將我的項(xiàng)目命名為DeepScientist。

2、問(wèn):什么時(shí)候開(kāi)源?

答:我會(huì)在確保足夠安全的情況下才會(huì)開(kāi)源,因?yàn)槲疫€不能完全確定它DeepScientist給學(xué)術(shù)界帶來(lái)的益處是否大于其潛在的風(fēng)險(xiǎn)。因此,我必須采取謹(jǐn)慎的態(tài)度。

(問(wèn):為什么要采取分階段開(kāi)源策略?)

因?yàn)樯鐓^(qū)熱情高漲——幾乎每個(gè)人都迫不及待地想讓我開(kāi)源它!我計(jì)劃利用國(guó)慶節(jié)和中秋節(jié)假期來(lái)修改代碼,以便社區(qū)能夠盡早體驗(yàn)該系統(tǒng),并探索它如何加速不同領(lǐng)域的科學(xué)發(fā)現(xiàn)。

感謝中關(guān)村研究院的支持,我們將能夠免費(fèi)向社區(qū)提供完整的DeepScientist系統(tǒng)。

3、問(wèn):我有機(jī)會(huì)重現(xiàn)或改進(jìn)DeepScientist嗎?

答:當(dāng)然!我們只用了兩個(gè)月就基于ResearStudio構(gòu)建了它。我相信你可以輕松創(chuàng)建類(lèi)似“Open-DeepScientist”或“nano-DeepScientist”的項(xiàng)目。我們強(qiáng)烈鼓勵(lì)社區(qū)開(kāi)展此類(lèi)項(xiàng)目。

(ResearStudio是首個(gè)用于構(gòu)建可人工干預(yù)的深度研究智能體的開(kāi)源框架。它實(shí)現(xiàn)了人機(jī)實(shí)時(shí)協(xié)作,允許用戶(hù)在執(zhí)行過(guò)程中暫停、編輯和引導(dǎo)AI智能體,而非傳統(tǒng)的“發(fā)射后不管”模式。其Agent核心層采用了規(guī)劃器(GPT-4)和執(zhí)行器(GPT-4o-mini/o3)。)

GitHub地址:

https://github.com/ResearAI/ResearStudio?tab=readme-ov-file

4、問(wèn):您是否認(rèn)為AI驅(qū)動(dòng)的科學(xué)發(fā)現(xiàn)存在縮放定律?

答:我堅(jiān)信AI驅(qū)動(dòng)的科學(xué)發(fā)現(xiàn)遵循其自身的“縮放定律”。但這并非孤立現(xiàn)象——它是人類(lèi)不斷加速的科學(xué)發(fā)現(xiàn)的自然延伸和放大。縱觀歷史,科學(xué)進(jìn)步的速度一直在不斷加快,在現(xiàn)代,這種加速尤為明顯。從中學(xué)開(kāi)始,我就喜歡玩《席德·梅爾的文明》,游戲中知識(shí)和技術(shù)的積累會(huì)更快地帶來(lái)“尤里卡時(shí)刻”。我相信,我們現(xiàn)在正在進(jìn)入一個(gè)由AI驅(qū)動(dòng)的現(xiàn)實(shí)世界的“尤里卡時(shí)代”。

5、問(wèn):目前,所謂的“AI科學(xué)家”看起來(lái)更像是“高通量試錯(cuò)機(jī)器”,而不是真正具有深刻洞察力的“發(fā)現(xiàn)者”。我們?nèi)绾尾拍芴嵘麄兊目茖W(xué)直覺(jué)?

答:首先,隨著模型能力的提升,我已經(jīng)感受到它們識(shí)別科學(xué)問(wèn)題局限性的能力在提升。早期的DeepSeek-R1版本,它的觀察結(jié)果非常膚淺。但Qwen-3-235B-Thinking-2507發(fā)布后,它的洞察力和假設(shè)生成能力明顯提升。在我看來(lái),只有比Qwen-3-235B版本更強(qiáng)大的模型才能產(chǎn)生真正有價(jià)值的發(fā)現(xiàn)。

RLVR(基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí))是一個(gè)很有前景的方向,但它也面臨挑戰(zhàn):成本高昂、訓(xùn)練效率低,大約需要1000個(gè)GPU小時(shí)才能生成一個(gè)有用的樣本。

6、問(wèn):這項(xiàng)研究的總成本約為10萬(wàn)美元(約合71.3萬(wàn)元人民幣)。與資助一名人類(lèi)博士生進(jìn)行類(lèi)似研究周期相比,您認(rèn)為目前這筆費(fèi)用是否劃算?

答:我認(rèn)為兩者各有優(yōu)勢(shì)。失敗是成功之母,而AI最大的優(yōu)勢(shì)在于它能夠持續(xù)探索而不疲倦。

一方面,我們可以依靠AI嘗試許多不同的策略——即使發(fā)現(xiàn)某種方法在某個(gè)領(lǐng)域失敗了,本身也是一個(gè)有意義的發(fā)現(xiàn)。另一方面,這僅僅是個(gè)開(kāi)始。未來(lái)幾年,由于能力的提升和推理成本的降低,AI的成本將大幅下降。

7、問(wèn):您論文中最令人興奮的發(fā)現(xiàn)之一是計(jì)算資源與研究產(chǎn)出之間的“近線性關(guān)系”。您預(yù)測(cè)這種趨勢(shì)會(huì)隨著GPU數(shù)量的增加而無(wú)限期地持續(xù)下去嗎?還是很快就會(huì)遇到瓶頸?下一個(gè)瓶頸可能是什么?

答:我認(rèn)為這種情況不會(huì)無(wú)限期地持續(xù)下去。我們即將遇到瓶頸。下一個(gè)瓶頸將是“探索效率”,而不是“探索規(guī)模”。目前,大多數(shù)計(jì)算資源都浪費(fèi)在低價(jià)值的探索上。未來(lái)的挑戰(zhàn)是如何避免這種低價(jià)值的工作。

雖然DeepScientist偶爾會(huì)通過(guò)反復(fù)試驗(yàn)發(fā)現(xiàn)新的方法來(lái)提高性能,但收益往往微乎其微。只有當(dāng)我們能夠進(jìn)行大規(guī)模、高價(jià)值的探索時(shí),真正的突破才會(huì)到來(lái)。

8、問(wèn):還有其他驚喜嗎?

答:是的!10月初,我們雙方將全面開(kāi)源一款工具。我相信每位研究人員都會(huì)對(duì)此感興趣——它顯著增強(qiáng)了DeepScientist的演示能力。

三、4步漸進(jìn)式開(kāi)源:10月中用戶(hù)可構(gòu)建自己的AI科學(xué)家

DeepScientist的整個(gè)開(kāi)源計(jì)劃會(huì)分為四個(gè)階段。

階段0:通用智能體框架

西湖大學(xué)已經(jīng)在ResearAI/ResearStudio開(kāi)源了前端和后端代碼。用戶(hù)可以以此為基礎(chǔ),使用自己的自定義工具構(gòu)建各種專(zhuān)業(yè)的Agent。

GitHub地址:

https://github.com/ResearAI/ResearStudio

第一階段:基于應(yīng)用程序的訪問(wèn)(預(yù)計(jì)在10月1日之前)

為了確保安全,西湖大學(xué)團(tuán)隊(duì)將邀請(qǐng)一小部分用戶(hù)試用DeepScientist,共同完善該框架。如果用戶(hù)有準(zhǔn)備探索的任務(wù),可以填寫(xiě)其等候名單表格。

申請(qǐng)地址:

https://forms.gle/8FnGgqgBVEKv3q6a7

第二階段:基礎(chǔ)組件發(fā)布(預(yù)計(jì)10月15日之前)

在確保安全之后,西湖大學(xué)團(tuán)隊(duì)將開(kāi)源基礎(chǔ)組件。在此階段,用戶(hù)可以立即開(kāi)始構(gòu)建自己的DeepScientist,或者復(fù)制西湖大學(xué)團(tuán)隊(duì)的工作。

第三階段:實(shí)驗(yàn)數(shù)據(jù)發(fā)布(預(yù)計(jì)11月之后)

西湖大學(xué)團(tuán)隊(duì)將開(kāi)源所有約5000條假設(shè)和約1100條實(shí)驗(yàn)日志。這將是首次公開(kāi)如此大規(guī)模的AI實(shí)驗(yàn)結(jié)果數(shù)據(jù)集。

第四階段:DeepScientist源代碼發(fā)布

西湖大學(xué)團(tuán)隊(duì)將進(jìn)行長(zhǎng)期測(cè)試和調(diào)整,以防止對(duì)人類(lèi)研究造成任何潛在危害。之后,團(tuán)隊(duì)將發(fā)布DeepScientist代碼的核心架構(gòu),以促進(jìn)社區(qū)發(fā)展。

結(jié)語(yǔ):AI科學(xué)家賦能科研,進(jìn)入規(guī)模化實(shí)證階段

西湖大學(xué)研發(fā)團(tuán)隊(duì)首次通過(guò)實(shí)證展示了一個(gè)自動(dòng)化全周期科學(xué)發(fā)現(xiàn)系統(tǒng),該系統(tǒng)能夠產(chǎn)生新穎且超越現(xiàn)有最佳水平的方法,并以大幅超過(guò)人類(lèi)研究人員的速度不斷推進(jìn)科學(xué)前沿。AI有望真正推動(dòng)多個(gè)不同領(lǐng)域的前沿發(fā)展,產(chǎn)生具有持久影響的發(fā)現(xiàn),并系統(tǒng)地推進(jìn)多個(gè)領(lǐng)域的技術(shù)前沿。

不過(guò),團(tuán)隊(duì)也坦言AI科研的成功率還可以繼續(xù)提升,5000個(gè)點(diǎn)子里最終僅21個(gè)能真正帶來(lái)科學(xué)突破,約60%的失敗是因?yàn)榇a實(shí)現(xiàn)出錯(cuò)。但好在它效率高,而且給它更多計(jì)算資源,它出成果的數(shù)量也會(huì)差不多成比例增加。

為了讓AI成為更得力的合作伙伴,西湖大學(xué)研發(fā)團(tuán)隊(duì)認(rèn)為,未來(lái)的工作應(yīng)聚焦于幾項(xiàng)關(guān)鍵改進(jìn):開(kāi)發(fā)模擬發(fā)現(xiàn)環(huán)境,通過(guò)強(qiáng)化學(xué)習(xí)加速學(xué)習(xí)進(jìn)程;構(gòu)建整合科學(xué)界反饋的框架;最終通過(guò)機(jī)器人技術(shù)彌合與物理科學(xué)之間的差距。

關(guān)鍵詞: 方法 -Sonnet 大學(xué) 西湖 科學(xué) 人類(lèi)

頻道精選

首頁(yè) | 城市快報(bào) | 國(guó)內(nèi)資訊 | 教育播報(bào) | 在線訪談 | 本網(wǎng)原創(chuàng) | 娛樂(lè)看點(diǎn)

Copyright @2008-2018 經(jīng)貿(mào)網(wǎng) 版權(quán)所有 皖I(lǐng)CP備2022009963號(hào)-11
本站點(diǎn)信息未經(jīng)允許不得復(fù)制或鏡像 聯(lián)系郵箱:39 60 29 14 2 @qq.com

主站蜘蛛池模板: 狠狠色丁香婷婷久久综合五月| 国产精品亚洲а∨无码播放不卡| 在线精品无码字幕无码av| 日本边添边摸边做边爱喷水| www在线看片| 黄色免费一级| 欧洲人妻丰满av无码久久不卡| 国产女人乱人伦精品一区二区| 成 人 黄 色 视频播放165| 夜夜揉揉日日人人| 香港澳门三级做爰| 色伊人亚洲综合网站| 不卡的中文字幕| 国产午夜精品一区理论片飘花| 久久99精品久久久久久9| 色一情一交一乱一区二区| 18禁黄网站男男禁片免费观看| 五月丁香六月狠狠爱综合| 久久久久成人精品无码中文字幕| 天天操国产| 8ⅹ8x擦拨擦拨成人免费视频 | 久久久久国色av免费看| 国产a线视频播放| 亚洲人成人网站在线观看| av中文资源| 欧美人与性动交α欧美精品| 欧美变态另类刺激| 亚洲一区二区三区高清av| www久久网| 亚洲va中文字幕无码久久| 在线播放亚洲第一字幕| av在线视屏| 亚洲中文无码av在线| 日韩国产精品一区二区三区| 精品aⅴ一区二区三区| 九色中文字幕| 精品久久久久香蕉网| 99精品欧美一区二区三区视频|