百度文心推出 PaddleOCR-VL-1.6:文档解析准确率突破 96.33%,刷新 SOTA 纪录

百度推出文心衍生模型PaddleOCR-VL-1.6,以96.33%准确率登顶OmniDocBench。0.9B参数轻量化设计,文本表格古籍识别全面领先,已开源并提供API调用。

6月2日,百度正式发布文心衍生模型 PaddleOCR-VL-1.6。作为 PaddleOCR 系列的最新版本,该模型在权威文档解析评测集 OmniDocBench v1.6 上取得 96.33% 的总准确率,超越 Gemini-3-Pro、GPT-5.2 等业界主流模型,刷新 SOTA 记录。PaddleOCR 基于百度文心大模型训练,是文心大模型多模态能力的重要组成部分,已支持超过 100 种语言识别。PaddleOCR-VL-1.6 在保持上一代 0.9B 参数轻量化架构的同时,通过模型驱动的数据构建机制和渐进式训练策略,实现了复杂文档场景解析能力的显著提升。

评测成绩全面领先

在 OmniDocBench v1.6 基准测试中,PaddleOCR-VL-1.6 总指标达到 96.33%,位居全球第一。相比前一版本 PaddleOCR-VL-1.5,新模型在文本、公式、表格等核心识别项上均有提升,尤其在表格、古籍、生僻字识别等高难度场景中表现突出。在更为贴近真实场景的 Real5-OmniDocBench 评测集上,PaddleOCR-VL-1.6 总分为 93.19%,较 Gemini-3-Pro 高出近 4 个百分点,在扫描件、弯折文档、屏幕拍照、光照变化及倾斜文档五种典型困难条件下均保持领先。

此外,模型在印章检测、Spotting 定位、图表识别等能力上同步增强,能够更好满足金融、法律、教育等行业的文档数字化需求。

轻量化架构与训练优化

PaddleOCR-VL-1.6 延续了上一代 0.9B 参数的轻量化设计,模型结构未做大幅调整,确保老用户无需额外适配即可平滑迁移。新版本主要通过模型驱动的数据构建机制和渐进式训练策略来提升性能,在参数规模不变的条件下实现了准确率和泛化能力的显著增长。PaddleOCR 系列基于百度文心大模型训练,目前已支持超过 100 种语言的识别,覆盖 170 多个国家和地区的用户。

在开源生态方面,PaddleOCR GitHub Star 数已突破 79.2K,超越谷歌开源项目 Tesseract OCR,成为全球最受开发者欢迎的 OCR 项目之一。PaddleOCR-VL-1.6 的模型代码及权重现已同步上线 GitHub 和 Hugging Face,开发者也可通过 PaddleOCR 官网的网页端或 API 直接调用。

本文参考来源:量子位



微信扫描下方的二维码阅读本文

百度文心推出 PaddleOCR-VL-1.6:文档解析准确率突破 96.33%,刷新 SOTA 纪录 - OmniDocBench, PaddleOCR-VL-1.6, 文心大模型, 文档解析, 百度, 视觉语言模型, 轻量化AI

发表回复