AI科研新突破!”科斯莫斯”12小时完成人类半年工作量

读懂AI2周前更新 wuaiai
39 00

近日,非营利研究机构FutureHouse发布AI超级科学家系统“科斯莫斯”,在科技界引发广泛讨论。这一系统单次运行12小时即可完成相当于研究团队半年工作量的科研任务,准确率达79.4%,并已在多个关键方向取得七项实质进展,同时正式迈入商业化阶段。围绕这一突破,公众看法不尽相同,而“科斯莫斯”也让传统AI评估体系面临新的挑战。

“科斯莫斯”性能提升显著,科研效率令人侧目
相较于FutureHouse早期打造的AI科学家“罗宾”在海量信息处理上的局限,“科斯莫斯”通过“结构化世界模型”实现核心突破,能够融合数百条智能体轨迹,构建不断演化的知识结构。其采用自主循环架构,可并行运行任务、更新知识图谱并规划研究路径。统计显示,“科斯莫斯”一次12小时运行平均展开166轮数据分析、36轮文献迭代,能够阅读1500篇论文,自动编写并执行4.2万行分析代码,最终生成可追溯的科研报告。在真实场景下,它半天的产出相当于一名科研人员六个月的投入,准确率达到79.4%,位列同类系统前列。

跨领域取得七项发现,商业化正式启动
当前,“科斯莫斯”已和多家机构开展合作,并在神经科学、材料科学、统计遗传学等前沿方向获得七项成果。它不仅独立复现了三项未发表的研究,例如确认核苷酸代谢在低温脑处理中的关键地位、揭示钙钛矿太阳能电池失效阈值,还在心肌纤维化机制、2型糖尿病风险通路等四个方向取得原创突破。随着能力成熟,FutureHouse已启动商业运营,单次运行费用约200美元;学术用户可申请免费额度,还推出创始订阅计划,早期使用者可享受1美元/积分的体验价,未来价格将随算力成本动态调整。

深度交互平台运行复杂,使用更需技巧
“科斯莫斯”并不是以往的对话式AI,而是面向科研流程设计的深度交互平台。用户需要掌握结构化提示方法,明确研究目标、数据路径与分析逻辑,才能充分激发系统潜能。其探索过程具有一定非线性,约30%的运行会陷入局部最优,导致研究价值有限。FutureHouse建议科研人员针对关键问题采用3至5次并行运行,并通过交叉验证筛选最具可信度的路径。

效能验证充分,传统评估体系亟须更新
研究团队在开发阶段发现,“科斯莫斯”单次运行能够完成相当于博士或博士后六个月的研究量,且其效率会随运行深度呈线性提升。通过邀请多名科学家评估人工完成相同任务所需的时间,七名测试者平均给出6.14个月的工作量估值。此外,“科斯莫斯”复现的三项成果,其原始研究平均耗时约四个月,而团队测算其整体处理量约等同于科研人员4.1个月的全职投入。由此可见,当前基于单任务测试的AI评估体系,已难以准确反映真实科研场景下的智能体能力,构建新维度评估方式势在必行。

网友热议不断,观点呈现两极分化
“科斯莫斯”发布后,不少网友称其为“AI应用最具代表性的案例”,认为人类与AI协作科研时代已然开启,将推动知识边界不断向前。然而,也有人认为真正的“AI科学家”必须具备从理论构想到实证验证的完整闭环,并在可量化成果上持续突破,下一代科研AI应更强调务实落地。

© 版权声明

相关文章