文档解析方案

更新: 3/7/2025 字数: 0 字时长: 0 分钟

olmOCR

支持 PDF 进行直接解析，但是效果差，出现缺失文档文本、图片的情况。
脚本解析，olmOCR 识别图片: 出现图片中清晰文字缺失，开头的日期信息缺失。效果不佳。

markitdown

支持多种格式文档转 markdown，包括 xlsx、xls、pdf、docs、pptx，视频文件正在支持中，等待新版本使用 ffmpeg 进行解析。
转换 pdf 时出现错误，只提取文本没有提取图片，也没有使用视觉大语言模型做识别
表格转换能够将多个子表放到一个 md 文件
视觉模型抽取图片文本，不支持配置 prompt，对于多语言场景效果显而易见的差。

MinerU

据说，在年报场景效果不错。
个人文档 pdf 解析中出现文本丢失的情况
图片识别的效果不佳，大多数图片都没进行抽取

mathpix

原图被识别作了裁剪
识别图片效果差，文字无法还原版面信息
生成 md 排版一般，在识别时有偏差

ChatDOC PDF Parser

前半部分解析效果正常，没有识别图片内容
后半部分抽取图片文本效果不完整，但是能够将抽取的文本内容从图片中截取掉

自研

存在技术背景，擅长文档解析，经验丰富。
高度定制文档解析效果更佳
图片抽取可自定义 prompt，多语言多场景适配更佳