好的,我现在要把这个文本改写成更自然、口语化的表达。得保证所有这些信息不变:1985年、2005年、7.33万、80%、AI、GitHub、HuggingFace、OCR、OCROCEAN、PDF、PaddleOCR、PaddleOCROCEAN、TesseractOCR、中国、惠普实验室。用“把”“给”“就”“了”替换一些词汇,避免使用四字成语和特定的结构词。原文本提到百度文心衍生的PaddleOCR在GitHub上的星标数突破7.33万,首次超越了谷歌的TesseractOCR,成为GitHub上星标最高的OCR项目。中国的开源模型这次又吸引了全球关注。OCR是通过图像处理和模式识别技术把文字转换成可编辑文本的计算机视觉技术。惠普实验室在1985年搞出了TesseractOCR,2005年谷歌接手维护。这次PaddleOCR超过TesseractOCR标志着OCR体系在AI时代迎来了重构,两者形成双向赋能关系。大模型现在的问题是数据不够用,现有的数据满足不了它的胃口。目前超过80%的信息还在书籍、合同、表格里。这些格式各异的信息需要OCR来挖掘出来。OCR能把图像和PDF里的文字变成机器能懂的文本,给大模型提供更丰富的数据。所以掌握强大的OCR技术就能打通现实世界的优质信息入口。现在文档质量参差不齐,很多小细节影响识别效果。比如纸质文档扫描后会倾斜弯折难以识别。PaddleOCR就提出来异形框定位技术解决这个问题。它现在支持110多种语言的图文混排、表格、公式等复杂元素解析。把这些数据输出后能直接用到后续处理里。 大模型技术也推动了OCR的迭代进步。PaddleOCR就是用百度文心大模型训练的,能高精度捕获文字表格公式等信息。文心大模型像大脑一样不断进化,反哺回PaddleOCR。这个模型从认字工具变成了读懂世界的利器。PaddleOCROCEAN生态联盟成立了,面向贡献者企业还有全球伙伴开放了。 总之这次事件让中国开源模型再次吸引了全球关注。