深度求索发布新一代文档识别模型 视觉编码突破助力复杂文档智能处理

在数字化转型加速的背景下,政务、金融、科研与工业领域对文档智能处理的需求持续增长。

现实场景中,大量资料并非“纯文本”,而是包含多栏排版、表格、图注、页眉页脚、脚注以及公式等复杂结构。

一旦文档阅读顺序判断不准,即便单字识别正确,也可能导致段落错位、表格行列错配、公式解析断裂,进而影响检索、归档与自动摘要等后续流程。

如何让机器在“看清字”的同时“读懂结构”,成为文档识别技术迭代的关键问题。

从原因看,传统视觉语言模型往往将图像切分为若干视觉单元,并按照从左上到右下的固定栅格顺序输入模型。

这一处理方式便于工程实现,但与人类阅读习惯存在偏差:人在阅读论文、报告或票据时,会依据语义线索与版面逻辑进行跳跃式浏览,例如先看标题与摘要,再回到图表说明,或按表格结构逐行逐列核对。

特别是在版式复杂或信息密度高的文档中,视觉元素之间往往具有明确的逻辑先后关系,若仅依赖空间顺序,模型对文档结构的把握容易受到限制,进而在阅读顺序、表格结构还原等任务上暴露短板。

针对上述痛点,DeepSeek发布的DeepSeek-OCR2把改进重点放在视觉编码器层面,提出DeepEncoderV2结构,并引入“视觉因果流”概念。

与此前常见的基于CLIP的视觉编码模块不同,DeepEncoderV2采用更接近语言模型的结构设计,在编码器内部加入可学习的“因果流查询token”。

这些查询token通过定制注意力机制工作:一方面,视觉token之间仍保留全局双向注意力以获取全局信息;另一方面,查询token自身采用因果注意力,只能访问已获得的信息,从而在编码阶段对视觉信息进行动态重排。

最终,经过因果重排后的查询token进入后续语言模型解码器,用于生成识别结果。

换言之,模型不再被动接受固定的栅格顺序,而是尝试学习更符合文档逻辑的“阅读路径”。

从影响看,这一设计意在以较小的额外成本换取更强的结构理解能力。

DeepSeek-OCR2仍沿用编码器—解码器范式:图像先经视觉tokenizer压缩为较少数量的视觉token,再由DeepEncoderV2进行语义建模与顺序重组,最后交由基于混合专家架构(MoE)的语言模型解码。

研究信息显示,该方案在不显著增加解码负担的前提下,将单页文档视觉token数量控制在256到1120之间,与前代及同类系统资源开销保持在相近水平,有利于面向在线服务与批处理任务的部署。

在评估层面,研究团队以OmniDocBenchv1.5为主要测试基准,该基准覆盖多类型中英文文档,关注文本识别、公式解析、表格结构还原与阅读顺序等指标。

结果显示,在视觉token上限更低的情况下,DeepSeek-OCR2整体得分达到91.09%,较上一代提升3.73%。

其中,与文档阅读顺序相关的编辑距离指标下降更为明显,表明模型在处理文档逻辑结构方面取得进展。

面向真实业务环境,团队还在在线OCR服务与批量PDF预处理等生产场景中,以输出重复率作为缺少人工标注时的质量信号。

数据显示,DeepSeek-OCR2在两类数据上的重复率均低于前代模型,反映其在实际数据分布下输出更稳定。

从对策与行业启示看,复杂文档识别的提升不能只依靠“更大的模型”或“更多的token”,更需要在编码阶段建立对结构与顺序的有效约束与表达。

通过在视觉编码器中引入可学习的因果顺序机制,将“阅读路径”纳入模型可优化的对象,有望提升对表格、公式、多栏排版等高难场景的鲁棒性。

与此同时,面向规模化应用,应继续完善评测体系与落地指标:除通用基准得分外,还需更贴近业务的质量度量与可解释性分析,降低在关键场景中的错序、漏读与结构误判风险。

展望未来,随着电子档案治理、知识库建设与智能办公需求扩张,文档识别将从“字符级准确”走向“结构级可信”,阅读顺序、版面理解与跨模态推理的重要性将进一步上升。

以“视觉因果流”为代表的探索若能在更多公开数据与多行业场景中得到验证,并与版面布局检测、信息抽取、检索增强等能力协同,复杂文档处理链条的自动化程度有望继续提高,为数据要素高效流通提供基础支撑。

文档识别技术的这一突破,不仅体现了我国在人工智能应用领域的创新能力,也为各行业数字化转型提供了有力支撑。

未来,随着技术的持续优化和应用场景的拓展,智能文档处理有望在提升工作效率、降低人力成本方面发挥更大作用,为数字经济发展注入新动能。

这一进展也启示我们,技术创新应当立足实际需求,通过深入理解人类认知规律来突破技术瓶颈。