
近日,DeepSeek发布视觉语言模型DeepSeek–OCR,引发行业关注。该模型由DeepEncoder和DeepSeek3B-MoE-A570M解码器组成,旨在通过光学二维映射技术实现高效视觉文本压缩,在减少计算量的同时处理更长上下文,在压缩率、实际应用性能等方面表现出色,还具备解析图表、多语言识别等能力,且已开源,为相关领域带来新的发展思路。
DeepSeek-OCR模型的核心组件与创新架构
DeepSeek-OCR主要由两大核心组件构成:DeepEncoder和DeepSeek3B-MoE-A570M解码器。DeepEncoder作为核心引擎,融合了SAM和CLIP两种视觉模型架构,以窗口注意力为主的视觉感知特征提取组件和采用密集全局注意力的视觉知识特征提取组件,中间通过16倍下采样的卷积模块桥接,能保持高分辨率输入下的低激活状态,并实现高压缩比,生成数量适中的视觉token。解码器采用DeepSeekMoE架构,具体为DeepSeek-3B-MoE,在推理过程中激活64个路由专家中的6个以及2个共享专家,激活参数量约为5.7亿,在获得3B模型表达能力的同时,享有5亿参数量小模型的推理效率,负责从DeepEncoder压缩后的潜在视觉Token中重建原始文本表示。这种独特的双组件设计,创新地将局部感知与全局理解优势相结合,实现了高效的视觉 – 文本压缩。
模型的工作原理与训练过程
DeepSeek-OCR的工作原理基于利用视觉模态作为文本信息的高效压缩媒介,将文本渲染成图像,通过视觉编码器提取特征并压缩,再由解码器还原为文本。其训练流程分为两个阶段:首先独立训练DeepEncoder,遵循Vary的方法,使用OCR 1.0、2.0数据及从LAION数据集中采样的通用数据,采用AdamW优化器和余弦退火调度器,训练2个epoch,批处理大小为1280,学习率为5e-5,训练序列长度为4096;在DeepEncoder准备就绪后,再训练DeepSeek-OCR,整个训练在HAI-LLM平台上进行,采用流水线并行,使用AdamW优化器和基于步数的调度器,初始学习率为3e-5 ,纯文本数据训练速度为每天900亿Token,多模态数据为每天700亿Token。
模型的实验成果与实际性能表现
在实验中,选用Fox基准数据集验证压缩与解压能力,当压缩比在10×以内时,模型解码精度可达约97%,压缩比接近20×时,精度仍有约60%。在OmniDocBench基准测试中,DeepSeek-OCR展现出很高的实用价值,仅用100个视觉token(分辨率640×640)就超过了使用256个token的GOT-OCR2.0 ;使用不到800个视觉token(Gundam模式)就优于平均每页使用超过6000个token的MinerU2.0。不同类型文档对视觉token需求不同,幻灯片类文档仅需64个视觉token,书籍和报告类100个视觉token即可取得较好表现。此外,该模型还能解析图表、化学方程式等,支持近100种语言的识别,并具备一定通用图像理解能力。
模型的开源与研究团队背景
DeepSeek已将DeepSeek-OCR的核心代码和模型权重开源,在实际生产环境中,单张A100 – 40G GPU每天可生成超过20万页的LLM/VLM训练数据。该项目由DeepSeek三位研究员Haoran Wei、Yaofeng Sun、Yukun Li共同完成。其中一作Haoran Wei曾在阶跃星辰工作过,主导开发的GOT-OCR2.0系统在GitHub收获了超7800 star,因此由其主导DeepSeek的OCR项目也在情理之中。
© 版权声明
本内容由 AI 生成,仅供参考,不构成新闻报道。








