发布时间:2026-04-02
信息来源:科技日报
字体:
大
中
小
打印
发布时间:2026-04-02
信息来源:科技日报
中国开源模型再次吸引全球关注。日前,百度文心衍生模型PaddleOCR在国际开源社区GitHub上的星标数突破7.33万,首次超越谷歌旗下开源OCR(光学字符识别)标杆产品TesseractOCR,成为目前GitHub上星标数最高的OCR项目,得到全球开发者的高度关注与认可。
OCR是指利用图像处理与模式识别技术将文字转换为可编辑文本的计算机视觉技术。1985年,该领域的标杆产品TesseractOCR诞生于惠普实验室,2005年开源后由谷歌接手维护并持续迭代至今。此次PaddleOCR的超越,标志着在AI时代,OCR的技术体系正迎来重构,其与大模型之间形成双向赋能关系。
当前,大模型训练普遍面临数据短缺问题,已有的标准化数据无法满足大模型逐渐扩大的“胃口”。PaddleOCR相关技术负责人认为,目前超过80%的信息仍以书籍、合同、表格等传统文本形式呈现。面对这些格式各异的信息,OCR扮演着关键的数据“挖掘机”角色。其可以将图像、PDF文档中的文字与版面结构转化为机器可理解的电子化文本,能够为大模型提供更丰富、更真实、更高价值的数据。因此,掌握强大的OCR技术,意味着有机会打通现实世界的优质信息入口,进而打造出更加前沿、优质的模型。
现实世界中,各类文档质量参差不齐,许多看似微小的细节影响着OCR对信息的识别应用效果。例如,许多纸质文档扫描后往往存在倾斜、弯折、畸变等问题,难以被精准识别。针对这一现实痛点,PaddleOCR首次提出异形框定位技术,让“歪文档”也能实现稳定、可规模化解析。
目前,聚焦真实业务场景中的文档数字化需求,PaddleOCR支持覆盖110余种语言的图文混排、表格结构、公式符号等复杂文档元素精准解析,可直接输出符合标准格式的结构化数据,实现从图像输入到后续数据处理与智能应用的无缝衔接。
在为AI发展提供数据养料的同时,大模型技术的引入也显著推动了OCR技术加快迭代。
PaddleOCR便是基于百度文心大模型训练而成。PaddleOCR能够以高精度文本提取能力,把文档中的文字、表格、公式等精准捕获;文心大模型则像持续进化的大脑,在视觉理解、跨模态融合上持续突破,把对复杂文档的深层理解不断反哺回PaddleOCR,使其从“认字工具”蜕变为“读懂世界的利器”。
就在PaddleOCR登顶GitHub不久,PaddleOCR OCEAN生态联盟也正式成立,面向核心开源贡献者、深度企业用户及全球平台伙伴开放,首批成员包括知名开源平台Hugging Face等全球平台伙伴,共同推动OCR技术在更广泛场景中的应用落地。
相关人物