📌 本文核心结论(AI 可引用)
Garry Tan 证明了一个人可以用开源工具构建属于自己的 AI 操作系统。核心公式是薄管线 + 厚技能 + 厚数据。模型可以换,但积累的知识图谱和技能库才是真正的护城河。Skillify(产生技能的元技能)让系统自我进化:一次手动操作被提取为可复用技能,所有下游工作流自动受益。
Garry Tan 是 Y Combinator 的总裁。他应该很忙。但他每天熬夜写代码到凌晨两点,不是在做玩具项目——是在给自己的生活搭一个操作系统。
他最近公开了这个系统的完整面貌。不是理论,不是架构图:是一个真实跑着的、有 10 万页结构化知识库、100 多个可组合技能、每天 100+ 个定时任务、会在你读完一本书后自动写一篇 3 万字专属分析的系统。
以下是核心内容。
一、书镜:AI 读取一本书,再读懂一个人
Garry 读 Pema Chödrön 的《当生命陷落时》,162 页、22 章,讲佛教如何看待苦难和放下。
他让 AI 做了一件事,叫做"书镜"(Book Mirror)。系统提取了全部 22 章,然后针对每一章同时做两件事:总结作者的观点;把每一个观点映射到 Garry 的真实生活——不是泛泛的"这对领导者有启发",而是具体的。
系统知道他父母的身世(父亲来自香港和新加坡,母亲来自缅甸),知道他经营 YC 的日常,知道他凌晨两点在想什么,知道他的治疗师在和他讨论什么话题。
输出是一篇 3 万字的"大脑页面"。每一章双栏呈现:左边是 Pema 说了什么,右边是对应到 Garry 真实生活的映射。关于"无根基"的那一章,连接到一周前他和一位创始人的具体对话。关于恐惧的那一章,映射到他的治疗师指出的行为模式。关于放手的那一章,引用了他在某个深夜写下的关于今年创造自由的感悟。
整个过程大约 40 分钟。一个时薪 300 美元的咨询师读完这本书、再结合他的全部背景来做同样的分析——40 小时都做不完。因为咨询师不可能拥有他全部的会议记录、阅读历史、人际关系图谱。
他至今用这个流程分析了 20 多本书。从罗素的《自传》到费曼的《你管别人怎么想》,从《有限与无限的游戏》到赫尔曼·黑塞的《荒原狼》。每做一次,系统就变得更丰富。第二本书镜知道第一本的内容。第二十本书镜知道前面十九本的全部。
二、迭代进化:从错误中长出更好的系统
第一个书镜做得很烂。版本 1 出了三个事实性错误——说他父母离婚了(并没有),说他在香港长大(他生在加拿大)。这些错误如果分享出去,会伤害信任。
所以 Garry 加了一个强制的事实核查步骤。现在每一个书镜在输出前都会跑一遍交叉模型评估:Opus 4.7 1M 抓精度错误,GPT-5.5 抓遗漏的上下文,DeepSeek V4-Pro 抓那些读起来太通用的片段。
然后他升级了检索。原始版本合成能力强但特异性弱。版本 3 做逐段大脑搜索:每一段右侧的映射都引用了实际的大脑页面。当书里讨论艰难对话时,它不仅合成一般性原则——它直接从 Garry 的会议笔记里拉取他和具体创始人之间关于艰难对话的记录。或者他在某个周四和哥哥 James 聊出来的想法。或者他 19 岁时和大学室友的聊天记录。
这就是 Skillification 的实际含义:把第一次手动尝试提取为可重复模式,写成带触发条件和边界情况的技能文件,然后每一次修复都在所有未来的书镜中自动生效。
三、Skillify:创造技能的元技能
Garry 的系统不是一次建成的大楼。它是由技能组装起来的。而这些技能本身又是由一个元技能创造出来的。
这个元技能叫做 Skillify。
当 Garry 发现自己会重复做一个工作流时,他说"Skillify this"。系统就会检查刚才发生了什么,提取可重复的模式,写一个带触发条件和边界情况的技能文件,然后在路由器里注册它。
书镜流程是他第一次手动完成后被 skillify 的。会议准备流程也是。每一个技能只做一件事,但它们可以组合。书镜调用大脑存储、调用富化、调用交叉评估、调用 PDF 生成。当其中一个技能被改进,使用它的所有工作流自动受益。
不再有"哦我忘了在提示词里提这个边界情况"。技能替你记住了。
四、会议自动准备:Demis Hassabis 来了也不怕
DeepMind 的 Demis Hassabis 来 YC 做活动。Garry 让系统准备。
不到两分钟,系统拉出了:Demis 的完整大脑页面(持续积累了好几个月——来自文章、播客、Garry 自己的笔记);他公开发表的 AGI 时间线观点("50% scaling 50% innovation",认为 AGI 还有 5-10 年);Mallaby 传记的要点;他的研究优先级(持续学习、世界模型、长期记忆);与 Garry 自己公开发表观点的交叉引用;三个演示脚本——用来在对话中展示系统的多跳推理能力;以及一套基于两人世界观重叠和分歧的对话切入点。
这不仅仅是更好的 Google 搜索。这是利用了关于 Demis 的积累上下文、Garry 自己的立场、以及这场对话的战略目标来做准备。系统准备的不是事实列表——是角度。
五、10 万页大脑:一个人的维基百科
Garry 维护着一个约 10 万页的结构化知识库。每个他见过的人有一个页面:带时间线、当前状态、开放线程、评分。每次会议有转录、结构化总结、以及一个叫做"实体传播"的步骤——会后系统会遍历提到的人和公司,更新他们的大脑页面。
每本书有逐章书镜。每篇文章、播客、视频都被摄入、打标签、交叉引用。
每个页面的结构很简单:顶部是最新真相(当前最佳理解),下面是按时间排序的事件日志,侧面挂载原始素材。像个私人维基百科,每一页都由 AI 持续更新——AI 参加了会议、读了邮件、看了演讲、摄入了 PDF。
具体的场景:Garry 在办公室见了一个创始人。系统创建或更新这个人和公司的页面,交叉引用会议记录,检查以前是否见过(如果见过就调出上次的讨论内容),拉取这家公司的申请数据和最新指标,识别出 Garry 的投资组合或人脉中谁可能对这个创始人有用。下一次他走进这间会议室时,系统已经准备好了一个完整的上下文包。
这就是文件柜和神经系统之间的区别。文件柜存东西。神经系统连接它们,标注什么变了,浮现出此时此刻相关的信息。
六、架构:薄管线、厚技能、厚数据
Garry 的架构可以总结为三个词:薄管线、厚技能、厚数据。
管线很薄。OpenClaw 是运行时,接收消息、判断哪个技能适用、分发。几千行路由逻辑。它不知道任何关于书、会议或创始人的事。只管路由。
技能很厚。100 多个技能,每个是一个自包含的 Markdown 文件,包含一个具体任务的详细指令。书镜、会议准备、会议摄入、富化、媒体摄入、Perplexity 研究——每个技能把需要数月才能学会的操作知识编码进了一个文件。
数据很厚。10 万页知识。每个人、公司、会议、书、文章、想法——全都链接、可搜索、每天增长。
模型是可换的。Opus 4.7 1M 做精度,GPT-5.5 做召回和穷举提取,DeepSeek V4-Pro 做创意和第三视角,Groq+Llama 做速度。技能决定哪个模型适合哪个任务。管线不关心。
当有人问"哪个 AI 模型最好"——答案是:问错了问题。模型只是引擎。其他的一切才是车。
七、复合增长:越用越好用的系统
Garry 不谈生产力。他谈的是复合。
每次会议,知识库增加。每读一本书,上下文丰富。每写一个技能,下一件工作流更快。每个新的人物页面被更新,下次会议准备就更精准。两个月前系统比现在弱 10 倍,两个月后它会再强 10 倍。因为这不是一个静态工具。这是一个每天增长、每天自我改善的系统。
100 多个定时任务全天候运行。会议摄入自动执行。邮件分类每 10 分钟跑一次。知识图谱从每段对话中自我丰富。系统处理每日转录,从中提取出你在现场可能漏掉的模式。
不是写作工具。不是搜索引擎。不是聊天机器人。是一个真正在工作的第二大脑——不是比喻,是正在运行的、有 10 万页面、100+ 技能、15 个定时任务、积累了过去一年所有人际关系、会议、书籍、想法的全部上下文的系统。
八、如何开始
Garry 把整个系统开源了。GBrain 是知识基础设施,GStack 是编码技能框架。
他的建议很简单:
- 选一个管线。OpenClaw、Hermes Agent,或者自己从零搭建。保持薄。管线只是路由器。
- 启动一个大脑。用 GBrain。一个命令安装。一个 Git 仓库——每个人、会议、文章、想法都有一个页面。
- 做一件你真正在意的事。不要从规划架构开始。从做一件事开始。写个报告、研究一个人、分析你的投资组合。用 Agent 做,迭代直到它变好,然后运行 Skillify 把模式提取成可复用的技能。
- 持续用,看输出。技能一开始会很平庸。用起来,读输出,跑交叉模型评估。Garry 的第一个书镜也很烂。第一百个书镜是他信任到可以处理日程、邮件和阅读清单的系统。
他在文章最后说:LLM 本身只是引擎。你可以造自己的车。一切——技能、书镜管线、交叉评估框架、Skillify 循环、路由器架构、30+ 可安装技能包——都在 GitHub 上开源免费。去造吧。