百度开源新一代OCR模型,性能全面超越DeepSeek-OCR2

读懂AI5天前更新 wuaiai
117 00

权威榜单验证的技术突破
1月29日,百度正式发布并开源新一代文档解析模型 PaddleOCR-VL-1.5。在全球权威评测榜单 OmniDocBench V1.5 中,该模型以仅0.9B参数规模,取得全球综合性能第一,整体精度达到94.5%,在多项核心指标上全面超越 Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B 以及 GPT-5.2 等主流模型。这一成绩,标志着轻量级OCR模型首次在国际权威榜单中实现全面领先。

“异形框定位”首次落地真实场景
值得关注的是,PaddleOCR-VL-1.5 全球首次实现OCR模型的“异形框定位”能力,使模型能够稳定识别倾斜、弯折、拍照畸变等非规则文档形态。这一突破,直接回应了长期困扰行业的“歪文档”难题,使移动拍照、扫描变形、复杂光照条件下的文档解析首次具备可规模化落地能力,为金融票据、政务档案、企业合同等高频场景提供了更可靠的技术基础。

复杂结构理解能力显著领先
依托文心大模型能力,PaddleOCR-VL-1.5 在 OmniDocBench V1.5 的多项关键指标上表现突出。其中,表格结构理解得分92.8,阅读顺序预测得分95.8,两项指标均位列榜单首位,领先 Gemini-3-Pro、DeepSeek-OCR 等模型2至5分不等。尤其在文档阅读顺序预测任务中,其版面逻辑解析错误率仅为同类模型约一半,显示出在复杂文档结构还原方面的高度稳定性。

从SOTA到工程能力的持续演进
回顾发展路径,2025年10月16日,百度首次发布并开源 PaddleOCR-VL 模型,便在 OmniDocBench V1.5 中取得全球SOTA成绩,并连续五天登顶 HuggingFace 与 ModelScope 全球模型趋势榜。此次发布的 1.5 版本,在延续高精度优势的基础上,进一步强化工程化能力,使模型更贴近真实生产环境需求。

多语种与复杂版式全面增强
在功能层面,PaddleOCR-VL-1.5 深度集成印章识别、文本检测与识别等能力,并针对特殊场景进行系统优化。在生僻字、古籍文献、多语种表格、下划线、复选框等复杂结构识别方面均实现明显提升,同时新增对藏语、孟加拉语等语种的支持。模型还支持跨页表格自动合并与跨页段落标题识别,有效解决长文档处理中常见的结构断裂问题。

行业竞争加速下的现实意义
近半年来,全球主流厂商密集布局OCR赛道。1月27日,深度求索发布 DeepSeek-OCR-2,引入“因果流查询”机制,在 OmniDocBench V1.5 中取得91.09%精度;同时,Mistral AI、字节跳动、腾讯等企业也相继推出新一代模型,行业竞争持续升温。在这一背景下,PaddleOCR-VL-1.5 以系统性工程能力实现领先,凸显出差异化优势。

从“能用”到“可规模化”的关键跨越
业内普遍认为,随着大模型加速进入金融、政务、制造等高复杂度业务流程,文档解析能力的核心标准正在从“能识别”转向“稳定、可规模化落地”。PaddleOCR-VL-1.5 在精度、复杂场景适应性与工程可靠性上的综合突破,有望进一步降低产业应用门槛,推动OCR技术在真实生产环境中的深度应用。

© 版权声明

相关文章