MonkeyOCR:基于结构 - 识别 - 关系三元组范式的文档解析模型
https://huggingface.co/echo840/MonkeyOCR
MonkeyOCR 是一个通过「结构 – 识别 – 逻辑」三级解耦的高效文档解析框架,依托新数据集 MonkeyDoc 和轻量模型,在多语言、多类型文档任务上展现出了超越现有方法的性能与效率。
一、核心贡献:SRR 三元组范式
SRR = Structure (布局检测) + Recognition (内容识别) + Relation (关系预测)
- Structure detection:YOLO-based 检测文档中 blocks(text, table, formula, image)及其位置。
- Content recognition:不同 block 类型使用专用识别模块 + type prompt。
- Relation prediction / reading order:输出逻辑顺序(如 JSON / Markdown)。
设计优势:分解任务降低误差传递,结合 pipeline 的可调优性与端到端的简洁性。
二、数据集:MonkeyDoc
- 总量:约 3.9M 个 block 级实例
- 类型覆盖:教科书、论文、财报、手写笔记、多栏排版、中英文混合等十类以上
- 标注方式:公开数据聚合 + 合成生成(弥补中文缺项)+ 自动 + 人工校正
- 目标:支持结构/内容/阅读关系三类子任务并统一 label schema
三、实验结果:3B 模型 vs SOTA
任务 | 对比模型 | MonkeyOCR 提升(百分比) |
---|---|---|
表格识别(表格转录) | MinerU | +8.6% |
公式识别 | - | +15.0% |
多页处理速度 | MinerU (~0.65ps) | 0.84 pages/sec |
在 OmniDocBench 上全面优于 LLMs + VLMs(如 72B Qwen2.5)
四、训练与硬件
- 优化器:AdamW
- 学习率:2e-5
- batch size:64
- 训练时长:~53h(32 × A800)
- 部署友好:3090 GPU 可运行(显存要求适中)
五、亮点
- 减少错误累积,分阶段控制质量;
- 中文语料补齐(公式/表格稀缺场景);
- 推理效率高(吞吐快);
- 小模大能,小体量超过部分大模型;
- 结构 + 内容 + 关系三位一体解析。
六、MonkeyOCR-pro-1.2B 模型
MonkeyOCR-pro-1.2B 是 MonkeyOCR 系列中一个 轻量/加速 的变体(leaner & faster version),对硬件要求极低。
相比 MonkeyOCR-3B,它在中文文档上 提升约 7.4% 的准确率。与 3B 版本相比,速度提升约 36%,但性能有小幅下降(大致 ~1.6% 的 drop)
https://huggingface.co/echo840/MonkeyOCR-pro-1.2B
标签:ai