LLM 开发的八大支柱：从 Prompt 到生产部署

一、Prompt 工程——成本最低的杠杆

一切从这里开始。因为在动检索和微调之前，Prompt 是最便宜的杠杆——你只需要改一段文本。

好的 Prompt 工程不是"写提示词"，而是三件事：

减少歧义——指令写清楚，别让模型猜
Few-shot 示例——给几个标准格式的样例，锚定输出
Chain-of-Thought——让模型一步步推理，稳定输出质量

核心原则：把 Prompt 当代码来管理。版本化、测试、可复现。不是那种今天能用、明天就崩的复制粘贴 hack。

推荐资源

Anthropic 官方 Prompt 工程指南、OpenAI Prompt 工程指南、以及社区整理的 22 个 Jupyter notebook 教程——覆盖从基础到高级。

二、RAG 系统——突破知识边界

Prompt 有一个天花板：模型没训练过的数据它不知道。公司文档、客户历史、截止日期之后的信息——Prompt 给不了。

RAG 的解法是把文档 embedding 进向量索引，查询时检索最相关的片段，拼进 Prompt 里。

一个能用的 RAG 系统涉及几个关键工程决策：

Chunk 大小和重叠——切太碎丢上下文，切太大浪费 token
Query 重写——用户的模糊提问先让模型重写成更适合检索的句子
Cross-encoder 重排序——向量检索拿回 Top-K，再用更精确的模型重排一次

从 Naive RAG（纯向量检索）到 Agentic RAG（Agent 自主决定什么时候查、查什么），架构演进有好几层。Avi 的帖子里有详细的拆解。

三、上下文工程——每一分 token 都要精打细算

检索只是上下文的一个输入源。模型看到的上下文窗口里，还挤着：对话历史、工具输出、跨 session 记忆、系统 Prompt、few-shot 示例。它们在竞争同一个 token 预算。

核心观点

上下文工程就是决定——什么保留、什么压缩、什么丢弃。因为每个 token 都花钱，而且稀释注意力。RAG 只是这个大问题里的一个子问题。

Anthropic 有一篇工程指南专门讲这个：Effective Context Engineering for AI Agents。值得通读。

四、微调——当 Prompt 和上下文都不够了

当 Prompt 和 RAG 都试过、效果依然有瓶颈，下一步就是动模型权重了。

传统微调对 LLM 不现实——千亿参数、几百 GB 显存。LoRA 和 QLoRA 解决了这个问题：只训练很小的低秩矩阵，单张 GPU 就能跑。几千条领域数据，往往就能填补特定场景的差距。

但难点从来不在训练循环——难点在数据。去重、指令格式化、质量过滤……数据准备占了 80% 的工作量。Avi 的联合创始人写了一篇 2026 年的微调指南，结论是：训练代码是最简单的部分，搞清楚你要什么数据才是真正的门槛。

五、Agent——让模型自己调用工具

Agent 扩展了 LLM 的工作循环：模型选一个工具 → 调用它 → 读结果 → 决定下一步 → 直到任务完成。

工程落地的工作量在编排层：

状态管理——跨轮次维护上下文
重试逻辑——工具返回垃圾数据怎么办
步数限制——防死循环
优雅失败——模型选错了工具，系统怎么兜底

Agent 有好几种构建模式（Avi 总结了 7 种），从单 Agent 单工具到多 Agent 协作，选哪个取决于任务的复杂度。

六、LLM 部署——从开发到生产

部署解决的是实际问题：并发请求处理、负载伸缩、延迟控制。

Avi 有一个重要的提醒：DevOps、MLOps 和 LLMOps 是三个不同的东西。很多团队直接把 DevOps 经验搬过来，效果不好。

生产部署的技术栈：

推理引擎——vLLM 是事实标准。PagedAttention 技术把 KV cache 浪费从 60-80% 降到 4%，同样的硬件吞吐量高 2-4 倍
服务框架——LitServe、BentoML
LLM 网关——LiteLLM，统一 100+ API 接口，做路由和成本控制
成本追踪——每请求粒度

七、LLM 优化——第一张推理账单让你不得不学

第一个月收到云账单的时候，优化就成了必修课。

最大的杠杆是量化。把权重从 FP16 降到 4-bit（比如 llama.cpp 的 Q4_K_M），困惑度损失通常不到 1%，内存占用降 4 倍。一块 24GB 的 GPU 就能跑 70B 模型。

其他常用优化手段：

蒸馏——用小模型学习大模型的输出
剪枝——去掉低于阈值的权重
Prompt caching——Claude 能做到 92% 的缓存命中率

Avi 整理过 72 种优化技术，从 INT4 量化到模型级联，覆盖了整个服务链路。每一种都要在你的实际 workload 上 benchmark，不要信通用评测。

八、安全、评估与可观测性——没有度量就没有改进

上面 7 个能力都到位了，但如果你说不清系统到底跑得好不好，那都是白搭。

评估和可观测性回答两个不同的问题：

Evals（评估）——"输出质量合格吗？" 部署前跑，用 golden dataset 做回归测试
Observability（可观测性）——"现在系统在干什么？" 生产环境实时追踪请求、token 用量、延迟、错误

Avi 画过一个"AI 系统可观测性分层"图——把你的 pipeline 看作一系列环节，每一层都要能独立观测。问题可能出在检索器、工具调用、还是 LLM 本身——你不知道就修不好。

⚡

安全提醒：Prompt 注入不是理论问题。Avi 给出了 5 个实用防御手段，每个生产系统都应该上。

· · ·

如果你还想再深一层——这 8 个能力都假设模型已经训练好了。Avi 也拆解了 LLM 从零训练的四个阶段。一本推荐的案头书：Chip Huyen 的 AI Engineering: Building Applications with Foundation Models，讲的是生产级 foundation model 的端到端工程化，有免费 companion repo。

#LLM #Prompt工程 #RAG #微调 #Agent #LLMOps #AI工程

← 返回首页