微软开源仓库 MarkItDown 5 月 31 日 GitHub 星标突破 132k,正式跻身 GitHub 全站星标榜前 60。这个项目的目标只有一个:把任何文档(PDF、Word、Excel、PowerPoint、HTML、EPUB、图片、音频)一键转成 Markdown,给大模型喂数据时格式统一。微软高级工程师 Adam Fourney 是核心 maintainer,他在 GitHub Discussions 里写:「我们做这个工具就是因为太烦每次给 LLM 喂数据前的 ETL 工作,希望它能把这些 5 分钟糟心事干掉。」
仓库 v0.1.x 起步阶段是个小工具,到 v0.7.0 后引入了多模态识别(图片转 alt-text、音频转字幕),定位从工具升级成 AI 数据预处理标配。社区把它和 LangChain、LlamaIndex 一起列为「RAG 三件套」。

设计取舍很务实
MarkItDown 没有走「大而全」路线,而是把每种格式拆成独立 converter。PDF 用 pdfminer,Word 用 mammoth,PowerPoint 用 python-pptx,图片走 Azure Document Intelligence 的 OCR API。这种结构让用户可以按需挑组件,不用为某种格式装一堆未必用得上的依赖。
Adam Fourney 在 issue #347 里解释这个选型:「我们见过太多『万能转换器』最后都死在依赖地狱里。MarkItDown 故意不做万能,每个 converter 都允许独立替换。」目前仓库已经支持 18 种格式,社区贡献的扩展再加 12 种。
社区贡献涌得很快
5 月单月 PR 合并 207 条,issue 关闭 384 条。最有趣的几个外部贡献:豆包工程师贡献的中文 PDF 优化(中文字间距识别准确率从 76% 提到 94%)、Anthropic 工程师贡献的「保留 Claude Vision 友好的图片描述」、Google 工程师贡献的 Workspace 格式适配。三家竞争对手的工程师在同一个仓库提 PR,这画面在 2026 年 AI 圈子已经不新鲜,但放在两年前不可想象。LlamaIndex 创始人 Jerry Liu 在 X 上点评这股势头:「MarkItDown 赢就赢在它只做一件事还做到位,我们已经把它设成默认的文档 ingest 后端,省下的维护成本比想象中多。」
商用版即将上线
Adam Fourney 5 月 28 日在 X 透露 Microsoft 内部正在做 MarkItDown Cloud,定位是托管版批量转换 API,初步定价 0.0008 美元/页(PDF)、0.001 美元/张(图片 OCR)。开源版本会保留所有功能不动。社区第一反应是「微软终于要从 OSS 里挣点钱了」,但讨论里没看见太多反对声——比起 Adobe 把 PDF SDK 卖到 1500 美元/年,MarkItDown 的价格已经低到「不值得自己搭一套」。
AI 时代的 ETL 标准件第一次有了开源默认值
星标数是结果,不是看点。值得记的是 MarkItDown 把「喂大模型前的格式预处理」这件碎活,凝固成了一个开源默认件。过去十年的数据预处理工具是 ELK、Airbyte 这种面向分析的重型栈,没人专门为 LLM 输入格式做一个轻量标准化层。MarkItDown 填的就是这个空位。它能在竞争对手工程师都来提 PR 的情况下封顶 132k 星,说明这个空位是真实存在且被长期忽视的。下半年大概率会看到主流 RAG 框架默认把它列进 ingest 链路——一个工具变成「不必再自己造」的基础设施,往往就是从这种沉默的共识开始的。