
爆料消息引发行业震动
近日,有关DeepSeek新一代旗舰模型DeepSeek-V4的爆料在业内流传。据称,该模型有望在春节前后正式推出,并在代码任务上取得显著突破,其表现可能超越Anthropic的Claude系列以及OpenAI的GPT系列。尽管这一消息尚未得到官方确认,但相关讨论已迅速升温,成为AI圈内的关注焦点。
官方保持克制,技术线索浮出水面
截至目前,DeepSeek尚未就V4的发布时间与性能传闻作出公开回应。不过,从其近期密集发布的研究成果来看,新一代模型的技术储备正在逐步显现。尤其是DeepSeek与北京大学联合发布的新论文,为外界理解V4的潜在能力提供了重要线索。
联合论文揭示关键技术方向
就在近日,DeepSeek与北京大学共同发布论文《Conditional Memory via Scalable Lookup》,梁文锋再次署名其中。论文提出的Engram概念,被外界普遍视为新一代模型的重要技术基础。该研究围绕模型“记忆”与“计算”之间的关系展开,为提升推理与代码能力提供了新的工程化路径。
Engram机制直指计算效率痛点
当前主流大模型在推理阶段高度依赖大规模矩阵计算,本质上是通过“深度计算”来模拟记忆检索过程,这种方式不仅耗能高,也占用了模型宝贵的推理能力。论文指出,这种设计在复杂任务中并不高效。为此,DeepSeek引入了对N-gram思想的改造,构建Engram模块,通过哈希映射与上下文感知门控机制,使模型能够直接提取高频短语的语义向量,从而更高效地完成代码与逻辑任务。
规模瓶颈上的一次关键尝试
相比单纯提升模型“聪明程度”,论文中更具突破性的尝试在于对模型规模瓶颈的挑战。传统MoE模型受限于动态路由与数据准备时序,难以充分利用算力资源。而Engram的检索逻辑由输入序列决定,可实现计算与数据传输的重叠,有效缓解CPU内存访问延迟。实验显示,在将千亿级参数词表放置于CPU内存的情况下,整体推理吞吐量损耗仍控制在3%以内。
实验结果与V4传闻形成呼应
回到V4的性能爆料,《The Information》提到新模型在长代码处理与逻辑组织能力上实现质变。Engram论文中的实验数据与这一说法高度契合:在知识密集型、推理、代码与数学等多项任务中,Engram-27B均明显优于同规模的MoE模型,长文本处理能力尤为突出。研究人员指出,Engram机制有效“解放”了模型深层网络,这一发现也为V4“推理更强、结构更清晰”的传闻提供了技术注脚。
© 版权声明
本内容由 AI 生成,仅供参考,不构成新闻报道。









