
近日,中国人工智能企业DeepSeek在国际顶级学术期刊《自然》上发表了其开源大模型DeepSeek-R1的训练成果。这一研究提出了大规模推理模型的全新训练方法,依托纯强化学习来提升大语言模型推理能力,显著降低了人类输入干预的需求。研究显示,该方法训练出的模型在多项任务表现上,已超越传统训练模式的大语言模型。与此同时,国际专家也指出DeepSeek-R1仍存不足,DeepSeek团队则表示未来将聚焦优化奖励机制。
新方法登上《自然》,展示中国突破
DeepSeek(深度求索)作为专注于大语言模型和通用人工智能的创新企业,今年发布了开源模型DeepSeek-R1。北京时间9月17日晚,其采用的大规模推理训练方法在《自然》刊发,论文通讯作者为DeepSeek创始人梁文锋。他与团队强调,这一成果证明了大语言模型的推理能力能够通过强化学习直接提升,从而减少额外人类示例输入的负担。
性能测试亮眼,多领域取得佳绩
实验数据显示,基于该方法训练的DeepSeek-R1及其衍生版本在数学推理、编程竞赛及STEM学科研究生水平任务中均有突出表现。尤其在数学基准测试上,DeepSeek-R1-Zero与DeepSeek-R1的得分分别达到77.9%和79.8%,明显高于常规训练模型。除数学外,该模型在物理、生物、化学等复杂问题中同样表现优异,进一步印证其推理能力。
强化学习驱动,降低训练复杂度
DeepSeek团队介绍,DeepSeek-R1通过强化学习而非人工示例来构建推理步骤,在减少成本和复杂性的同时,提升了效率。模型在接受高质量案例后会形成推理模板,并通过任务解答获取奖励信号,从而持续优化自身的学习过程。
专家评价理性,未来路径明确
《自然》同期刊发的国际专家评论指出,DeepSeek-R1当前仍面临局限,如对提示词敏感、语言优化范围有限,尚未在软件工程等任务中实现显著突破。对此,DeepSeek-AI团队回应称,下一步研究将集中在奖励机制优化,以确保模型在多任务推理中展现更高可靠性和稳定性。
© 版权声明
文章版权归作者所有,未经允许请勿转载。