PDF 转 Markdown 的限制：OCR、表格、图片和排版

PDF 转 Markdown 很有用，但它不是魔法。PDF 是版式文档，描述文本、图片、图形和其他对象在页面上的位置；Markdown 是结构化文本格式，描述标题、段落、列表、链接、代码块和简单表格。

这个差异解释了大部分转换限制。转换器不只是提取文字，还要判断阅读顺序、标题层级、列表结构、表格边界，以及哪些内容应该忽略。

最后核对：2026-06-01。常规模式最适合可选中文本，并在浏览器本地运行。扫描版、图片型和复杂 PDF 可以使用高级 OCR，结果保留 24 小时。

为什么输出质量会不同

两个 PDF 看起来完全一样，内部数据可能差别很大。一个文件可能有干净文本、段落和逻辑阅读顺序；另一个文件可能由单个定位字符、扫描图片、隐藏文本层或复杂版式对象组成。

最常见的问题是 PDF 不一定保存语义结构。它可能知道某个词在页面的某个坐标上，但不知道这个词是二级标题、表格第一格，还是上一页段落的延续。

扫描版 PDF 需要 OCR

如果 PDF 页面本质上是一张图片，常规模式就没有文本层可以提取。你能在页面上看到字，但浏览器无法把它当作字符复制，因为它只是像素。

这些情况应使用高级 OCR：

扫描合同、书籍、信件和表单。
由纸张照片保存成的 PDF。
扫描软件导出的图片型 PDF。
选中文字时只能选中整页图片，而不是单个词。

OCR 能识别文字，但仍可能出错。低分辨率扫描、页面歪斜、手写字、印章、阴影和特殊字体都会影响准确率。重要姓名、数字、日期，以及法律或财务术语必须回到原 PDF 核对。

表格通常是最难的部分

Markdown 支持简单表格。但 PDF 中的表格常常视觉丰富、结构不明确。一个干净的 Markdown 表格通常需要清晰行列、单层表头和没有合并单元格。

遇到这些情况，通常需要人工清理：

合并单元格。
多层表头。
带缩进、小计和合计的财务报表。
跨页表格。
单元格内脚注。
旋转表头。
单元格内包含列表或多段文字。

常规模式会在可能时保留简单表格结构。高级 OCR 对某些表格处理更好，并会把识别出的表格内联到 Markdown 中，但复杂表格仍可能需要人工重建。如果表格涉及业务关键数据，应逐行和原 PDF 对照。

图片、图表和示意图不是普通 Markdown 文本

常规模式专注文本提取，不会把图片、图表和示意图提取为真实图片文件。如果 PDF 中有图表，图表标题或说明文字可能会被转换，但图表本身不会在常规模式下变成可用图片资源。

高级 OCR 在 OCR 服务返回图片资源时，可以把图片包含在结果中。当结果包含图片时，下载 Markdown 加独立图片文件的 ZIP 通常比把图片以 base64 直接嵌入单个 Markdown 文件更容易管理。

即使图片被保留下来，也需要上下文。如果要发布 Markdown，最好补充附近的图注、图号引用和必要的 alt 文本。

多栏排版可能打乱阅读顺序

PDF 的文本顺序可能和视觉顺序不同。双栏页面可能按横向位置存储文字，也可能按设计工具创建对象的顺序存储文字，还可能被拆成多个片段。转换后就可能在错误时间从左栏跳到右栏。

这些文档尤其需要注意：

学术论文。
宣传册。
新闻简报。
产品资料页。
标签和值混排的表单。
带边栏或提示框的报告。

如果内容重要，应逐节检查转换后的 Markdown。有时最快的修复方式是转换后手动移动文本块，而不是强行追求完美自动提取。

页眉、页脚和页码可能进入正文

PDF 经常在每页重复页码、文档标题、保密声明、日期或公司名称。转换器可能会把它们保留下来，因为它们确实是 PDF 里的文本对象。

转换后应快速查找重复行。只要它们打断正文阅读，就应该删除。只有当它们承载版本号、章节名或必要法律声明时，才建议保留。

公式和特殊符号需要人工检查

数学公式、化学记号、法律符号、货币符号和技术标记都可能难以完整保留。PDF 可能把它们存成特殊字体、矢量图形或定位字符，而不是普通 Unicode 文本。

如果输出要用于工程、学术、法律或金融工作，应人工核对这些符号。公式可能需要改写为 LaTeX 或你的 Markdown 渲染器支持的其他格式。

链接、脚注和参考文献可能需要清理

PDF 链接可能只转换成可见文字，而没有干净的 Markdown 链接地址。脚注可能出现在段落中间或页尾。引用在合并换行时也可能丢失空格或标点。

有用的清理步骤包括：

把重要链接重建为标准 Markdown 链接。
将脚注移动到相关章节末尾。
统一引用中的空格。
修复长 URL 中的错误换行。
在不要求精确格式时，把参考文献保留为普通文本。

受密码保护或限制的 PDF

有些 PDF 会禁止复制、打印或提取；有些文件需要密码才能打开。转换器只能处理它有权限读取的文件。如果 PDF 被加密、受限或损坏，转换可能失败，或只得到不完整内容。

只处理你有权处理的文档。对于敏感文件，如果它是文本型 PDF，优先使用常规模式，因为它在浏览器本地运行，不上传文件。

文件大小和页数限制仍然存在

转换质量不是唯一限制。大型 PDF 会占用更多内存，也需要更长解析时间。批量任务需要队列机制，避免单个文件影响浏览器稳定性。高级 OCR 也有账户、文件和积分规则，因为服务器端识别有处理成本。

文档很大时，先测试一个代表性文件或较小片段。如果样本输出已经很乱，直接处理整份文档通常只会放大清理成本。

如何判断结果是否足够好

应根据用途决定复核强度：

个人笔记：快速清理通常足够。
内部草稿：检查标题、阅读顺序和重要表格。
公开文档：需要编辑结构、文风、链接和可访问性。
研究或合规材料：应仔细和原 PDF 对照。
法律、医疗或金融内容：把 Markdown 当作草稿，核对每个关键细节。

只要准确性重要，原 PDF 就仍然是事实来源。

实用排查流程

当转换结果不理想时，先按这个顺序处理，不要立刻开始全文手工重写：

检查 PDF 是否有可选中文本。
如果是扫描版，切换到高级 OCR。
如果文本可选中但顺序混乱，检查多栏、边栏和页眉页脚。
删除重复的页眉和页脚。
只重建真正重要的表格。
对关键事实回到原 PDF 核对。
判断当前 Markdown 是否足以完成工作流，还是应继续以 PDF 作为主文档。

这样可以让清理成本和文档价值匹配。

总结

PDF 转 Markdown 最适合包含干净可选中文本、阅读顺序简单的 PDF。OCR、表格、图片、公式、多栏排版和重复页面元素都会增加复杂度，因为它们需要解释，不只是提取。文本型 PDF 使用常规模式，扫描版和复杂文件使用高级 OCR；任何准确性重要的内容，都必须人工复核。

PDF 转 Markdown 的限制：OCR、表格、图片和排版

目录