SmolDocling:超轻量级(仅 256M 参数)的结构化文档解析模型
https://huggingface.co/ds4sd/SmolDocling-256M-preview
一、定位
SmolDocling 是首个端到端、单模型完成多模态文档转换的 超紧凑 VLM,2.56 亿参数,远小于主流方法(如 Qwen-VL 的 ~35B),推理每页 0.35 秒,仅占 0.489GB 显存。
二、能力
能直接处理整页图像 → 输出 DocTags 标记格式,捕捉结构化内容 + 空间布局。支持:代码、表格、公式、图表、段落、标题等元素,并保留它们的位置坐标和嵌套层级。
三、训练方案
基于 SmolVLM-256M(语言部 1.35B 参数,视觉部 93M 参数);使用课程学习:先训练输出适配,再冻结语言部分训练视觉编码器,最后微调综合能力。预训练数据包括 OCRIDL、WordScape、Caouldron、Docmatix 扩展,以及自制 DocsLayNet-PT(140W 页)、SynthDocNet 和渲染出的代码与公式图像(各百万级)。
四、核心创新
- DocTags:自定义标记格式,类似 XML,但更简洁。可嵌套标签,带 loc 位置信息,token 用量少、损失小。
- 数据扩展:首次大规模标注“完整页面”内容 + 布局 + 结构,覆盖商业文献、学术、技术文本等广泛类型。
- 高效资源利用 + 大规模对比实验:在 OCR、表格结构、公式识别等任务中表现优于大得多的模型,显著降低依赖 OCR 或 OCR-free 方法的复杂性和幻觉问题。
五、局限与未来方向
定位误差仍是关键瓶颈;某些生成 tag 可能缺失或结构错误。未来需进一步提升空间感知精度和格式稳定性。
总结一句话:
SmolDocling 在极小规模下实现了大模型级别的端到端文档解析能力,证明了小模型 + 高效格式 + 联合训练数据可以成为高质量文档理解的新范式。
标签:ai