当前,企业加速推进数字化与智能化应用,但“文档不会用、数据不成库、知识难复用”等现实问题依然突出,成为不少组织提升效率与决策质量的共同堵点。
大量合同、报告、表格、邮件、图文混排材料长期散落在个人电脑、共享盘与系统边界之间,既难以统一归集,又难以被准确理解与调用,导致智能应用效果不稳定、业务收益难衡量。
问题在于,企业知识的主要载体仍是非结构化文档。
与结构化数据库相比,文档往往格式多变、层级复杂,且存在行业黑话、缩略语、多语言混杂、扫描件噪声、表格跨页与嵌图等“真实世界复杂性”。
一旦解析环节出现偏差,后续知识抽取、问答检索、流程自动化就会连锁失真,最终表现为“能生成但不可靠”“看似聪明却不懂业务细节”。
原因之一,是通用大模型并非为文档智能任务而生。
通用模型通常依赖海量参数提升泛化能力,但对文字感知、版式理解、阅读顺序等细粒度能力的优化不足,遇到复杂OCR任务时容易出现识别漏字、表格错位、逻辑关系颠倒等问题。
公开评测也显示,现有多模态模型在复杂、多样化OCR任务上的准确率仍存在明显短板。
原因之二,是企业治理体系往往重“应用上线”轻“数据打底”,把知识治理当作“辅助工程”,缺少统一标准、全流程闭环与持续迭代机制,导致数据质量难以支撑规模化落地。
在上述背景下,华中科技大学与金山办公联合推进的MonkeyOCR引发关注。
刘禹良在峰会上介绍,MonkeyOCR在较小参数规模下取得中英文文档解析任务的领先成绩,最新迭代版本在国际权威文档解析榜单综合表现位居前列,并在复杂表格理解等场景实现显著提升。
其核心思路并非单纯追求参数规模,而是强调“结构优先”的统一框架:将文档解析抽象为“结构、识别、关系”三项核心能力——先定位段落、标题、图片、表格等版面结构,再在结构约束下完成文字识别,并进一步建立元素之间的阅读顺序与对应关系,从而更接近人类阅读与理解方式。
金山办公方面则在工程化落地与复杂文档场景积累上提供支撑,引入强化学习等方法提升对复杂表格的处理能力,面向企业常见的跨页表格合并、表格内嵌图片还原等难点给出可用解法。
影响层面,文档解析能力的提升不仅是技术指标的跃升,更直接关系企业知识能否“可沉淀、可检索、可复用”。
一方面,准确解析能够显著降低知识入库成本,减少人工校对与重复整理,让制度、流程、合同、投标文件等关键资料实现可追溯、可查询、可审计;另一方面,数据治理水平决定智能应用的上限,只有把高质量知识沉淀为统一的知识底座,智能问答、自动撰写、风险核查、合规审阅、客户服务等场景才能稳定输出,避免“答案看似合理、却不符合企业规则”的风险。
此外,产学研协同也有助于推动关键技术从实验室走向产业一线,形成可复制、可推广的实践路径。
对策方面,与会观点强调,应把非结构化数据治理置于企业智能战略核心,推动从“点状工具”转向“体系化能力”。
一是建立统一的数据归集与权限体系,明确文档的来源、口径与版本管理,减少“多份并存、以旧为准”的管理隐患;二是以结构化思维推进解析标准化,将版式结构、字段含义、关系规则固化为可执行的治理规范;三是把模型能力与业务流程深度结合,形成“采集—解析—治理—应用—反馈”的闭环,让模型在真实业务中持续校正与提升;四是重视可部署性与成本约束,面向企业边缘场景与合规要求,探索更轻量、更高效的运行形态,兼顾效率与安全。
前景来看,随着智能化应用加速进入千行百业,谁能率先把分散的文档资产转化为可计算、可管理、可调用的知识体系,谁就更可能在效率、合规与创新上形成长期优势。
峰会信息显示,双方后续计划推出更大规模的多语言文档解析数据集与视觉基座能力,并探索更高效的部署方式。
同时,金山办公推出的一站式协同办公平台WPS 365,强调从数据归集、智能解析、知识治理到场景应用的全链路方案,意在为企业构建“全域知识基座”,以平台化能力降低应用门槛,提升落地确定性。
可以预期,围绕“高质量数据+可用模型+可运营平台”的组合,将成为企业智能化建设的重要方向。
非结构化文档的数据治理已成为决定人类知识能否被持续转化为机器智能的关键因素。
MonkeyOCR模型的成功表明,通过学术研究与产业应用的深度融合,通过针对性的算法创新而非盲目的参数堆砌,完全可以在特定领域实现对国际先进水平的超越。
对于广大企业而言,充分盘活内部知识资产、建立完善的数据治理体系,已不再是可选项而是必选项。
随着文档智能技术的不断进步和应用场景的持续拓展,人工智能真正融入千行百业的时代正在加速到来。