
想从应用开发转 AI 工程,市面上的课程要么停在”调一下 OpenAI API”,要么直接跳到”训练一个 Transformer”,中间那段最难补的工程缝隙,反倒没人讲。GitHub 上的开源项目 rohitg00/ai-engineering-from-scratch 把这段空白填得相当扎实,仓库 Star 数已经爬到 13.7k。
课程到底覆盖了什么
仓库里塞了 200 多节小课,按工程链路从前到后排:先讲 token 化与 embedding 怎么落到代码里,再讲向量数据库选型与索引调优,接着是检索增强、Agent 编排、评估与监控,最后是部署、灰度、成本控制。每一节配可运行的 Python notebook,依赖明确写在 requirements.txt 里,跑通一节大约 15 到 30 分钟。
和”看完很爽但写不出来”的视频课不一样,这个课程的节奏是”读 5 分钟、跑 15 分钟、改 30 分钟”。改的部分尤其重要——每节末尾留了 2 到 3 个改造任务,强迫你把刚学的东西嵌进自己的代码。
它和吴恩达、Hugging Face 的课怎么选
吴恩达的 deeplearning.ai 系列偏概念入门,适合零基础铺路。Hugging Face 的 Transformers 课偏模型内部,适合想钻研架构的人。ai-engineering-from-scratch 站在第三个位置:默认你已经会写 Python、用过 LLM API,目标是把你送到”能上线一个 RAG 应用并扛住 QPS”的状态。
项目作者 Rohit Ghumare(独立开发者、DevOps 背景)在 README 里写得直接:他自己从 SRE 转 AI 工程花了一年多,踩过的坑都拆成了一节节课。这种”自带血泪”的教材通常比按教学大纲写的更耐看,因为顺序更接近真实工作流,而不是知识树的逻辑顺序。
哪些人会觉得这门课值
最贴合的是后端转 AI 工程师,已经熟悉 API、数据库、监控这些底子,需要补的是 LLM 特有的概念,比如 chunking 策略、reranker 选型、token 预算;其次是机器学习工程师补工程短板,模型这一块他们熟,但部署、评估、可观测性常常欠缺。反过来说,应该跳过这门课的是两类人:完全没写过 Python、连 venv 都没建过的纯新手,以及只想随手调几次 API 跑个 demo、对部署和评估没兴趣的同学——前者建议先把 Python 基础课过一遍再回来,后者直接看官方 API 文档更省时间。
课程里几个值得单独标注的章节
我自己翻了一遍后,有两节特别想标注:评估那一块讲得比绝大多数博客都细,从 BLEU、ROUGE 到 LLM-as-judge,每种方案的适用场景与坑都写到了;成本控制章节实测了 prompt caching、batch API、模型蒸馏三种降本路径,给了具体的成本对比表。Agent 编排那一节立场也算鲜明——对比 LangGraph、CrewAI、原生 function calling 之后推荐”先用原生再考虑框架”,和很多教程的方向相反,但更贴近生产经验。
Hugging Face 工程师 Lewis Tunstall(《NLP with Transformers》合著者)此前在播客里说过一句话:AI 工程的真正难点是”把 demo 变成产品”。这门课的存在感,几乎全在于它一直围着这句话打转。
开源课程的可持续性怎么看
免费课程最容易死在”作者一阵热血更新一波就停”。ai-engineering-from-scratch 当前在 GitHub Pulse 页面可以看到每周仍有数次提交,issue 回复较及时,社区 PR 也在持续合并。这个状态如果能维持半年,基本可以当作教科书来用。如果作者后续推付费版,多半也会保留开源核心——这种”开源课 + 商业训练营”的模式在国外越来越常见。
简单结论:手头有需要补的工程缝隙,就 fork 一份按章节跑;只想随便看看,先 star 收藏,等需要时再翻出来。比起花钱报班,这是更划算的入口。
参考链接