深度求索发布新一代文档识别模型视觉编码突破助力复杂文档智能处理

在数字化转型加速的背景下，政务、金融、科研与工业领域对文档智能处理的需求持续增长。

现实场景中，大量资料并非“纯文本”，而是包含多栏排版、表格、图注、页眉页脚、脚注以及公式等复杂结构。

一旦文档阅读顺序判断不准，即便单字识别正确，也可能导致段落错位、表格行列错配、公式解析断裂，进而影响检索、归档与自动摘要等后续流程。

如何让机器在“看清字”的同时“读懂结构”，成为文档识别技术迭代的关键问题。

从原因看，传统视觉语言模型往往将图像切分为若干视觉单元，并按照从左上到右下的固定栅格顺序输入模型。

这一处理方式便于工程实现，但与人类阅读习惯存在偏差：人在阅读论文、报告或票据时，会依据语义线索与版面逻辑进行跳跃式浏览，例如先看标题与摘要，再回到图表说明，或按表格结构逐行逐列核对。

特别是在版式复杂或信息密度高的文档中，视觉元素之间往往具有明确的逻辑先后关系，若仅依赖空间顺序，模型对文档结构的把握容易受到限制，进而在阅读顺序、表格结构还原等任务上暴露短板。

针对上述痛点，DeepSeek发布的DeepSeek-OCR2把改进重点放在视觉编码器层面，提出DeepEncoderV2结构，并引入“视觉因果流”概念。

与此前常见的基于CLIP的视觉编码模块不同，DeepEncoderV2采用更接近语言模型的结构设计，在编码器内部加入可学习的“因果流查询token”。

这些查询token通过定制注意力机制工作：一方面，视觉token之间仍保留全局双向注意力以获取全局信息；另一方面，查询token自身采用因果注意力，只能访问已获得的信息，从而在编码阶段对视觉信息进行动态重排。

最终，经过因果重排后的查询token进入后续语言模型解码器，用于生成识别结果。

换言之，模型不再被动接受固定的栅格顺序，而是尝试学习更符合文档逻辑的“阅读路径”。

从影响看，这一设计意在以较小的额外成本换取更强的结构理解能力。

DeepSeek-OCR2仍沿用编码器—解码器范式：图像先经视觉tokenizer压缩为较少数量的视觉token，再由DeepEncoderV2进行语义建模与顺序重组，最后交由基于混合专家架构（MoE）的语言模型解码。

研究信息显示，该方案在不显著增加解码负担的前提下，将单页文档视觉token数量控制在256到1120之间，与前代及同类系统资源开销保持在相近水平，有利于面向在线服务与批处理任务的部署。

在评估层面，研究团队以OmniDocBenchv1.5为主要测试基准，该基准覆盖多类型中英文文档，关注文本识别、公式解析、表格结构还原与阅读顺序等指标。

结果显示，在视觉token上限更低的情况下，DeepSeek-OCR2整体得分达到91.09%，较上一代提升3.73%。

其中，与文档阅读顺序相关的编辑距离指标下降更为明显，表明模型在处理文档逻辑结构方面取得进展。

面向真实业务环境，团队还在在线OCR服务与批量PDF预处理等生产场景中，以输出重复率作为缺少人工标注时的质量信号。

数据显示，DeepSeek-OCR2在两类数据上的重复率均低于前代模型，反映其在实际数据分布下输出更稳定。

从对策与行业启示看，复杂文档识别的提升不能只依靠“更大的模型”或“更多的token”，更需要在编码阶段建立对结构与顺序的有效约束与表达。

通过在视觉编码器中引入可学习的因果顺序机制，将“阅读路径”纳入模型可优化的对象，有望提升对表格、公式、多栏排版等高难场景的鲁棒性。

与此同时，面向规模化应用，应继续完善评测体系与落地指标：除通用基准得分外，还需更贴近业务的质量度量与可解释性分析，降低在关键场景中的错序、漏读与结构误判风险。

展望未来，随着电子档案治理、知识库建设与智能办公需求扩张，文档识别将从“字符级准确”走向“结构级可信”，阅读顺序、版面理解与跨模态推理的重要性将进一步上升。

以“视觉因果流”为代表的探索若能在更多公开数据与多行业场景中得到验证，并与版面布局检测、信息抽取、检索增强等能力协同，复杂文档处理链条的自动化程度有望继续提高，为数据要素高效流通提供基础支撑。

文档识别技术的这一突破，不仅体现了我国在人工智能应用领域的创新能力，也为各行业数字化转型提供了有力支撑。

未来，随着技术的持续优化和应用场景的拓展，智能文档处理有望在提升工作效率、降低人力成本方面发挥更大作用，为数字经济发展注入新动能。

这一进展也启示我们，技术创新应当立足实际需求，通过深入理解人类认知规律来突破技术瓶颈。

深度求索发布新一代文档识别模型 视觉编码突破助力复杂文档智能处理