一、Prompt 工程——成本最低的杠杆
一切从这里开始。因为在动检索和微调之前,Prompt 是最便宜的杠杆——你只需要改一段文本。
好的 Prompt 工程不是"写提示词",而是三件事:
- 减少歧义——指令写清楚,别让模型猜
- Few-shot 示例——给几个标准格式的样例,锚定输出
- Chain-of-Thought——让模型一步步推理,稳定输出质量
核心原则:把 Prompt 当代码来管理。版本化、测试、可复现。不是那种今天能用、明天就崩的复制粘贴 hack。
Anthropic 官方 Prompt 工程指南、OpenAI Prompt 工程指南、以及社区整理的 22 个 Jupyter notebook 教程——覆盖从基础到高级。
二、RAG 系统——突破知识边界
Prompt 有一个天花板:模型没训练过的数据它不知道。公司文档、客户历史、截止日期之后的信息——Prompt 给不了。
RAG 的解法是把文档 embedding 进向量索引,查询时检索最相关的片段,拼进 Prompt 里。
一个能用的 RAG 系统涉及几个关键工程决策:
- Chunk 大小和重叠——切太碎丢上下文,切太大浪费 token
- Query 重写——用户的模糊提问先让模型重写成更适合检索的句子
- Cross-encoder 重排序——向量检索拿回 Top-K,再用更精确的模型重排一次
从 Naive RAG(纯向量检索)到 Agentic RAG(Agent 自主决定什么时候查、查什么),架构演进有好几层。Avi 的帖子里有详细的拆解。
三、上下文工程——每一分 token 都要精打细算
检索只是上下文的一个输入源。模型看到的上下文窗口里,还挤着:对话历史、工具输出、跨 session 记忆、系统 Prompt、few-shot 示例。它们在竞争同一个 token 预算。
上下文工程就是决定——什么保留、什么压缩、什么丢弃。因为每个 token 都花钱,而且稀释注意力。RAG 只是这个大问题里的一个子问题。
Anthropic 有一篇工程指南专门讲这个:Effective Context Engineering for AI Agents。值得通读。
四、微调——当 Prompt 和上下文都不够了
当 Prompt 和 RAG 都试过、效果依然有瓶颈,下一步就是动模型权重了。
传统微调对 LLM 不现实——千亿参数、几百 GB 显存。LoRA 和 QLoRA 解决了这个问题:只训练很小的低秩矩阵,单张 GPU 就能跑。几千条领域数据,往往就能填补特定场景的差距。
但难点从来不在训练循环——难点在数据。去重、指令格式化、质量过滤……数据准备占了 80% 的工作量。Avi 的联合创始人写了一篇 2026 年的微调指南,结论是:训练代码是最简单的部分,搞清楚你要什么数据才是真正的门槛。
五、Agent——让模型自己调用工具
Agent 扩展了 LLM 的工作循环:模型选一个工具 → 调用它 → 读结果 → 决定下一步 → 直到任务完成。
工程落地的工作量在编排层:
- 状态管理——跨轮次维护上下文
- 重试逻辑——工具返回垃圾数据怎么办
- 步数限制——防死循环
- 优雅失败——模型选错了工具,系统怎么兜底
Agent 有好几种构建模式(Avi 总结了 7 种),从单 Agent 单工具到多 Agent 协作,选哪个取决于任务的复杂度。
六、LLM 部署——从开发到生产
部署解决的是实际问题:并发请求处理、负载伸缩、延迟控制。
Avi 有一个重要的提醒:DevOps、MLOps 和 LLMOps 是三个不同的东西。很多团队直接把 DevOps 经验搬过来,效果不好。
生产部署的技术栈:
- 推理引擎——vLLM 是事实标准。PagedAttention 技术把 KV cache 浪费从 60-80% 降到 4%,同样的硬件吞吐量高 2-4 倍
- 服务框架——LitServe、BentoML
- LLM 网关——LiteLLM,统一 100+ API 接口,做路由和成本控制
- 成本追踪——每请求粒度
七、LLM 优化——第一张推理账单让你不得不学
第一个月收到云账单的时候,优化就成了必修课。
最大的杠杆是量化。把权重从 FP16 降到 4-bit(比如 llama.cpp 的 Q4_K_M),困惑度损失通常不到 1%,内存占用降 4 倍。一块 24GB 的 GPU 就能跑 70B 模型。
其他常用优化手段:
- 蒸馏——用小模型学习大模型的输出
- 剪枝——去掉低于阈值的权重
- Prompt caching——Claude 能做到 92% 的缓存命中率
Avi 整理过 72 种优化技术,从 INT4 量化到模型级联,覆盖了整个服务链路。每一种都要在你的实际 workload 上 benchmark,不要信通用评测。
八、安全、评估与可观测性——没有度量就没有改进
上面 7 个能力都到位了,但如果你说不清系统到底跑得好不好,那都是白搭。
评估和可观测性回答两个不同的问题:
- Evals(评估)——"输出质量合格吗?" 部署前跑,用 golden dataset 做回归测试
- Observability(可观测性)——"现在系统在干什么?" 生产环境实时追踪请求、token 用量、延迟、错误
Avi 画过一个"AI 系统可观测性分层"图——把你的 pipeline 看作一系列环节,每一层都要能独立观测。问题可能出在检索器、工具调用、还是 LLM 本身——你不知道就修不好。
如果你还想再深一层——这 8 个能力都假设模型已经训练好了。Avi 也拆解了 LLM 从零训练的四个阶段。一本推荐的案头书:Chip Huyen 的 AI Engineering: Building Applications with Foundation Models,讲的是生产级 foundation model 的端到端工程化,有免费 companion repo。
← 返回首页