PDF 转 Markdown 的限制:OCR、表格、图片和排版

2026/05/24

PDF 转 Markdown 很有用,但它不是魔法。PDF 是版式文档,描述文本、图片、图形和其他对象在页面上的位置;Markdown 是结构化文本格式,描述标题、段落、列表、链接、代码块和简单表格。

这个差异解释了大部分转换限制。转换器不只是提取文字,还要判断阅读顺序、标题层级、列表结构、表格边界,以及哪些内容应该忽略。

最后核对:2026-06-01。常规模式最适合可选中文本,并在浏览器本地运行。扫描版、图片型和复杂 PDF 可以使用高级 OCR,结果保留 24 小时。

为什么输出质量会不同

两个 PDF 看起来完全一样,内部数据可能差别很大。一个文件可能有干净文本、段落和逻辑阅读顺序;另一个文件可能由单个定位字符、扫描图片、隐藏文本层或复杂版式对象组成。

最常见的问题是 PDF 不一定保存语义结构。它可能知道某个词在页面的某个坐标上,但不知道这个词是二级标题、表格第一格,还是上一页段落的延续。

扫描版 PDF 需要 OCR

如果 PDF 页面本质上是一张图片,常规模式就没有文本层可以提取。你能在页面上看到字,但浏览器无法把它当作字符复制,因为它只是像素。

这些情况应使用高级 OCR:

  • 扫描合同、书籍、信件和表单。
  • 由纸张照片保存成的 PDF。
  • 扫描软件导出的图片型 PDF。
  • 选中文字时只能选中整页图片,而不是单个词。

OCR 能识别文字,但仍可能出错。低分辨率扫描、页面歪斜、手写字、印章、阴影和特殊字体都会影响准确率。重要姓名、数字、日期,以及法律或财务术语必须回到原 PDF 核对。

表格通常是最难的部分

Markdown 支持简单表格。但 PDF 中的表格常常视觉丰富、结构不明确。一个干净的 Markdown 表格通常需要清晰行列、单层表头和没有合并单元格。

遇到这些情况,通常需要人工清理:

  • 合并单元格。
  • 多层表头。
  • 带缩进、小计和合计的财务报表。
  • 跨页表格。
  • 单元格内脚注。
  • 旋转表头。
  • 单元格内包含列表或多段文字。

常规模式会在可能时保留简单表格结构。高级 OCR 对某些表格处理更好,并会把识别出的表格内联到 Markdown 中,但复杂表格仍可能需要人工重建。如果表格涉及业务关键数据,应逐行和原 PDF 对照。

图片、图表和示意图不是普通 Markdown 文本

常规模式专注文本提取,不会把图片、图表和示意图提取为真实图片文件。如果 PDF 中有图表,图表标题或说明文字可能会被转换,但图表本身不会在常规模式下变成可用图片资源。

高级 OCR 在 OCR 服务返回图片资源时,可以把图片包含在结果中。当结果包含图片时,下载 Markdown 加独立图片文件的 ZIP 通常比把图片以 base64 直接嵌入单个 Markdown 文件更容易管理。

即使图片被保留下来,也需要上下文。如果要发布 Markdown,最好补充附近的图注、图号引用和必要的 alt 文本。

多栏排版可能打乱阅读顺序

PDF 的文本顺序可能和视觉顺序不同。双栏页面可能按横向位置存储文字,也可能按设计工具创建对象的顺序存储文字,还可能被拆成多个片段。转换后就可能在错误时间从左栏跳到右栏。

这些文档尤其需要注意:

  • 学术论文。
  • 宣传册。
  • 新闻简报。
  • 产品资料页。
  • 标签和值混排的表单。
  • 带边栏或提示框的报告。

如果内容重要,应逐节检查转换后的 Markdown。有时最快的修复方式是转换后手动移动文本块,而不是强行追求完美自动提取。

页眉、页脚和页码可能进入正文

PDF 经常在每页重复页码、文档标题、保密声明、日期或公司名称。转换器可能会把它们保留下来,因为它们确实是 PDF 里的文本对象。

转换后应快速查找重复行。只要它们打断正文阅读,就应该删除。只有当它们承载版本号、章节名或必要法律声明时,才建议保留。

公式和特殊符号需要人工检查

数学公式、化学记号、法律符号、货币符号和技术标记都可能难以完整保留。PDF 可能把它们存成特殊字体、矢量图形或定位字符,而不是普通 Unicode 文本。

如果输出要用于工程、学术、法律或金融工作,应人工核对这些符号。公式可能需要改写为 LaTeX 或你的 Markdown 渲染器支持的其他格式。

链接、脚注和参考文献可能需要清理

PDF 链接可能只转换成可见文字,而没有干净的 Markdown 链接地址。脚注可能出现在段落中间或页尾。引用在合并换行时也可能丢失空格或标点。

有用的清理步骤包括:

  • 把重要链接重建为标准 Markdown 链接。
  • 将脚注移动到相关章节末尾。
  • 统一引用中的空格。
  • 修复长 URL 中的错误换行。
  • 在不要求精确格式时,把参考文献保留为普通文本。

受密码保护或限制的 PDF

有些 PDF 会禁止复制、打印或提取;有些文件需要密码才能打开。转换器只能处理它有权限读取的文件。如果 PDF 被加密、受限或损坏,转换可能失败,或只得到不完整内容。

只处理你有权处理的文档。对于敏感文件,如果它是文本型 PDF,优先使用常规模式,因为它在浏览器本地运行,不上传文件。

文件大小和页数限制仍然存在

转换质量不是唯一限制。大型 PDF 会占用更多内存,也需要更长解析时间。批量任务需要队列机制,避免单个文件影响浏览器稳定性。高级 OCR 也有账户、文件和积分规则,因为服务器端识别有处理成本。

文档很大时,先测试一个代表性文件或较小片段。如果样本输出已经很乱,直接处理整份文档通常只会放大清理成本。

如何判断结果是否足够好

应根据用途决定复核强度:

  • 个人笔记:快速清理通常足够。
  • 内部草稿:检查标题、阅读顺序和重要表格。
  • 公开文档:需要编辑结构、文风、链接和可访问性。
  • 研究或合规材料:应仔细和原 PDF 对照。
  • 法律、医疗或金融内容:把 Markdown 当作草稿,核对每个关键细节。

只要准确性重要,原 PDF 就仍然是事实来源。

实用排查流程

当转换结果不理想时,先按这个顺序处理,不要立刻开始全文手工重写:

  1. 检查 PDF 是否有可选中文本。
  2. 如果是扫描版,切换到高级 OCR。
  3. 如果文本可选中但顺序混乱,检查多栏、边栏和页眉页脚。
  4. 删除重复的页眉和页脚。
  5. 只重建真正重要的表格。
  6. 对关键事实回到原 PDF 核对。
  7. 判断当前 Markdown 是否足以完成工作流,还是应继续以 PDF 作为主文档。

这样可以让清理成本和文档价值匹配。

总结

PDF 转 Markdown 最适合包含干净可选中文本、阅读顺序简单的 PDF。OCR、表格、图片、公式、多栏排版和重复页面元素都会增加复杂度,因为它们需要解释,不只是提取。文本型 PDF 使用常规模式,扫描版和复杂文件使用高级 OCR;任何准确性重要的内容,都必须人工复核。

PDF To Markdown

PDF To Markdown

PDF 转 Markdown 的限制:OCR、表格、图片和排版 | PDF To Markdown 博客