一、Prompt 工程——成本最低的杠杆

一切从这里开始。因为在动检索和微调之前,Prompt 是最便宜的杠杆——你只需要改一段文本。

好的 Prompt 工程不是"写提示词",而是三件事:

核心原则:把 Prompt 当代码来管理。版本化、测试、可复现。不是那种今天能用、明天就崩的复制粘贴 hack。

推荐资源

Anthropic 官方 Prompt 工程指南、OpenAI Prompt 工程指南、以及社区整理的 22 个 Jupyter notebook 教程——覆盖从基础到高级。

二、RAG 系统——突破知识边界

Prompt 有一个天花板:模型没训练过的数据它不知道。公司文档、客户历史、截止日期之后的信息——Prompt 给不了。

RAG 的解法是把文档 embedding 进向量索引,查询时检索最相关的片段,拼进 Prompt 里。

一个能用的 RAG 系统涉及几个关键工程决策:

从 Naive RAG(纯向量检索)到 Agentic RAG(Agent 自主决定什么时候查、查什么),架构演进有好几层。Avi 的帖子里有详细的拆解。

三、上下文工程——每一分 token 都要精打细算

检索只是上下文的一个输入源。模型看到的上下文窗口里,还挤着:对话历史、工具输出、跨 session 记忆、系统 Prompt、few-shot 示例。它们在竞争同一个 token 预算。

核心观点

上下文工程就是决定——什么保留、什么压缩、什么丢弃。因为每个 token 都花钱,而且稀释注意力。RAG 只是这个大问题里的一个子问题。

Anthropic 有一篇工程指南专门讲这个:Effective Context Engineering for AI Agents。值得通读。

四、微调——当 Prompt 和上下文都不够了

当 Prompt 和 RAG 都试过、效果依然有瓶颈,下一步就是动模型权重了。

传统微调对 LLM 不现实——千亿参数、几百 GB 显存。LoRA 和 QLoRA 解决了这个问题:只训练很小的低秩矩阵,单张 GPU 就能跑。几千条领域数据,往往就能填补特定场景的差距。

但难点从来不在训练循环——难点在数据。去重、指令格式化、质量过滤……数据准备占了 80% 的工作量。Avi 的联合创始人写了一篇 2026 年的微调指南,结论是:训练代码是最简单的部分,搞清楚你要什么数据才是真正的门槛。

五、Agent——让模型自己调用工具

Agent 扩展了 LLM 的工作循环:模型选一个工具 → 调用它 → 读结果 → 决定下一步 → 直到任务完成。

工程落地的工作量在编排层:

Agent 有好几种构建模式(Avi 总结了 7 种),从单 Agent 单工具到多 Agent 协作,选哪个取决于任务的复杂度。

六、LLM 部署——从开发到生产

部署解决的是实际问题:并发请求处理、负载伸缩、延迟控制。

Avi 有一个重要的提醒:DevOps、MLOps 和 LLMOps 是三个不同的东西。很多团队直接把 DevOps 经验搬过来,效果不好。

生产部署的技术栈:

七、LLM 优化——第一张推理账单让你不得不学

第一个月收到云账单的时候,优化就成了必修课。

最大的杠杆是量化。把权重从 FP16 降到 4-bit(比如 llama.cpp 的 Q4_K_M),困惑度损失通常不到 1%,内存占用降 4 倍。一块 24GB 的 GPU 就能跑 70B 模型。

其他常用优化手段:

Avi 整理过 72 种优化技术,从 INT4 量化到模型级联,覆盖了整个服务链路。每一种都要在你的实际 workload 上 benchmark,不要信通用评测。

八、安全、评估与可观测性——没有度量就没有改进

上面 7 个能力都到位了,但如果你说不清系统到底跑得好不好,那都是白搭。

评估和可观测性回答两个不同的问题:

Avi 画过一个"AI 系统可观测性分层"图——把你的 pipeline 看作一系列环节,每一层都要能独立观测。问题可能出在检索器、工具调用、还是 LLM 本身——你不知道就修不好。

安全提醒:Prompt 注入不是理论问题。Avi 给出了 5 个实用防御手段,每个生产系统都应该上。
· · ·

如果你还想再深一层——这 8 个能力都假设模型已经训练好了。Avi 也拆解了 LLM 从零训练的四个阶段。一本推荐的案头书:Chip Huyen 的 AI Engineering: Building Applications with Foundation Models,讲的是生产级 foundation model 的端到端工程化,有免费 companion repo。

#LLM #Prompt工程 #RAG #微调 #Agent #LLMOps #AI工程
← 返回首页