##“从副驾驶到联合创始人”
目录
- 2025年本体论:系统2与“聊天”的消亡
- 前沿引擎:技术深入探讨
- GPT-5.1 和持久内存层 (PML)
- 克劳德 4.5 作品:深刻的思考者
- Gemini 3 Flash:实时代理
- 神经系统:模型上下文协议(MCP)
- 架构与安全
- 开源服务器生态系统
- 代理工作空间:IDE 与 IAD
- 风帆冲浪和瀑布
- 光标和作曲家 V2
- Cline:开放的协调者
- 地方主权:私人堆栈
- DeepSeek-R2 和蒸馏 *“模型操作系统”:Ollama v2
- 操作智能:测试和 CI/CD
- 行为验证(Qodo) *“代理在环”管道
1.0 2025 年本体论:系统 2 与“聊天”的消亡
2024 年的界面——“聊天机器人”——已经死了。 这是一个拟物化的桥梁,一个过渡阶段,我们将人工智能视为一个非常聪明的人,我们必须发短信。
2025 年末,接口为 Context。 我们不再与AI“聊天”; 我们“居住”在一个工作空间中,人工智能是操作系统中无所不在的、有状态的层。 今年的决定性转变是从概率令牌生成(系统 1)到推理优先规划(系统 2)。
1.1 “即时工程师”的崩溃
“即时工程”已被 “上下文工程”取代。 你不再欺骗模型变得聪明; 这些模型(GPT-5、Opus 4.5)现在在原始逻辑方面比普通初级工程师更聪明。 架构师的工作现在严格来说是资源管理:
- 我应该将此任务路由到哪个模型?
- 需要多少上下文?
- 权限边界是什么?
2.0 前沿引擎:技术深入探讨
“三巨头”已经分化为特定的进化生态位。 我们不再问“哪个最好?” 但是“哪一个适合专门的工作量?”
2.1 GPT-5.1 和持久内存层 (PML)
OpenAI(发布:2025 年 8 月/预览:2025 年 12 月)
GPT-5代表了“通用智能”的巅峰。 但 5.1 预览版中其定义功能是 PML(持久内存层)。
2.1.1 PML技术架构
PML 不是 RAG(检索增强生成)。 RAG是一个搜索引擎; 它找到文档。 PML 是一个状态机。
- 向量与图: 传统 RAG 使用向量嵌入(模糊匹配)。 PML 使用知识图。 当您在对话中定义变量时,GPT-5.1 将其映射为特定于项目的图中的节点。
- “写入”操作: 当用户建立约束(例如,“所有日期必须为 UTC”)时,模型会执行
MEM_WRITE手术。 这是原子的和持久的。 - “执行”层: 在生成任何未来代码之前,模型会遍历图表。 如果生成的令牌违反了约束节点(例如,生成
new Date()而不是moment.utc()),在令牌发出之前,logits 会被抑制。
TIP{title=“Architectural Impact”} 这允许**“零射击入门”。**新的聊天会话不是从零开始;而是从零开始。 它从项目知识图的确切状态开始。
2.2 克劳德 4.5 作品:深度思考者
人择(发布:2025 年 11 月)
如果 GPT-5 是首席执行官,那么 Claude 4.5 Opus 就是首席研究员。 它速度慢、成本高,而且非常出色。
2.2.1 200万代币“完美召回”
Claude 4.5 实现了以前不可能实现的目标:大规模线性注意力。 它可以容纳 2,000,000 个令牌上下文窗口(大约 15,000 个代码文件),具有 99.93% 大海捞针召回率。
- 用例:“大重构” 您可以向 Claude 4.5 提供整个遗留 Java 整体并询问:“识别导致竞争条件的单例模式的每个实例,并重写它们以使用依赖注入。”* 它将思考 45 秒(系统 2 暂停),然后输出一个涉及 400 个文件的计划,而不会产生任何导入路径的幻觉。
2.3 Gemini 3 Flash:实时代理
Google(发布:2025 年 12 月)
Gemini 3 Flash 改变了人工智能的经济学。 它是多模式本机和延迟优化。
- “0.2 秒”障碍: Gemini 3 Flash 可以在 200 毫秒内获取 UI 错误的屏幕截图、OCR 文本、解析日志并提出修复建议。
- 代理循环: 因为它非常便宜(0.10 美元/100 万代币),我们现在将它用于“强力推理”。 我们可以生成 50 个并行代理来同时尝试 50 个不同的错误修复,运行测试,并且只向用户呈现通过的测试。
3.0 神经系统:模型上下文协议(MCP)
由 Anthropic & Linux Foundation (2025) 标准化
2025 年之前,将人工智能与数据连接意味着编写脆弱的 API 粘合代码。 MCP 是“USB-C 智能”。 它为任何模型创建了与任何数据源对话的标准方式。
3.1 MCP 的工作原理(“客户端-主机-服务器”模型)
- MCP 主机: 运行 AI 的应用程序(例如 Claude Desktop、Cursor、Cline)。
- MCP 服务器: 一个公开数据的轻量级沙盒进程。
- MCP 客户端: AI 模型本身。
// The AI wants to check a database.// It sends a JSON-RPC message to the Host.{ "jsonrpc": "2.0", "method": "callTool", "params": { "name": "postgres_query", "arguments": { "query": "SELECT * FROM users WHERE status = 'active' LIMIT 5" } }}// The Host validates permissions ("Does this AI have DB access?").// The Host forwards to the Postgres MCP Server.// The Server executes and returns the JSON result.社区中的免费 MCP 服务器数量呈爆炸式增长。 您今天可以在本地运行这些。
| 服务器 | 能力 | 命令 |
|---|---|---|
| @modelcontextprotocol/server-postgres | 只读 SQL 模式检查和查询。 | docker run mcp/postgres |
| @modelcontextprotocol/server-github | 问题跟踪、公关评论、文件搜索。 | npx -y @mcp/server-github |
| @modelcontextprotocol/服务器文件系统 | 安全的本地文件访问(沙盒)。 | npx -y @mcp/server-filesystem |
| mcp-服务器-k8s | Kubernetes集群检查和日志读取。 | go run mcp-k8s |
| mcp 服务器浏览器 | 用于网页浏览/测试的无头铬。 | npx -y @mcp/browser |
4.0 代理工作空间:IDE 与 IAD
“集成开发环境”(IDE) 已过时。 我们现在在**“集成代理环境”(IAD)**中工作。
4.1 风帆冲浪:“心流”状态
Windsurf(Codeium 出品)引入了**“Cascades”的概念。**
- 深度上下文感知: Windsurf 不仅仅查看打开的文件。 它索引您的变量定义、导入图和最近的终端输出。
- 预测导航: 如果您更改后端中的函数签名,Windsurf 主动会打开调用它的前端文件,甚至在您运行编译器之前突出显示中断。
4.2 Cline:开源协调器
Cline 是开源世界的英雄。 它是一个 VS Code 扩展,可将编辑器变成自主代理。
- “Act”循环: Cline 不只是建议代码;它还建议代码。 它运行终端命令。 它可以:
1.
npm test(失败)
- 阅读错误。
- 编辑文件。
4.
npm test(通过) 5.git commit* MCP 集成: Cline 是最先进的 MCP 客户端。 您可以链接工具:“使用 GitHub MCP 查找问题,使用 Postgres MCP 检查数据,然后编写修复程序。”
5.0 本地主权:私有堆栈
对于处理 HIPAA、GDPR 或商业秘密的企业来说,云不是一个选择。 2025年实现“本地智能”突破。
5.1 DeepSeek-R2:开放重量奇迹
DeepSeek-R2 是一种开放权重模型,可与 GPT-4o 竞争,但可以在消费类硬件上运行。
- 蒸馏: 它是使用来自较大推理模型的“知识蒸馏”进行训练的,使其能够用更少的参数进行深入的“思考”。
- 隐私: 通过在本地 Mac Studio 或 NVIDIA H100 集群上运行 DeepSeek-R2,公司可以获得“气隙智能”。 任何数据都不会离开大楼。
5.2 Ollama v2.0:模型操作系统
Ollama 现在是本地 AI 的标准运行时。
- 热插拔: Ollama v2 保持 VRAM 中加载的“基本”权重,并立即热插拔“LoRA 适配器”(低阶适应)。 你可以在10毫秒内从“编码专家”切换到“创意作家”。
6.0 情报运作:“审查危机”
2025 年的根本问题不是生成代码,而是生成代码。 它正在验证它。 当初级开发人员(或 AI 代理)可以在 30 秒内生成 5000 行复杂的 React 逻辑时,高级架构师就成为瓶颈。 我们已经进入了**“代码倾斜”**的时代——代码看起来正确,通过了单元测试,但引入了微妙的架构漂移。
6.1 Qodo(以前的 Codium):“BS 探测器”
像 Qodo 这样的工具不再是“拥有就好”——它们是防御性基础设施。 他们的主要工作不仅仅是测试,还有幻觉遏制。
- “信心悬崖”: 人工智能代理即使在错误的情况下也非常自信。 Qodo 担任公正的审计员。
- 基于属性的模糊测试: 由于我们不能相信人工智能能够理解边缘情况,因此我们使用 Qodo 来“模糊”代理的代码——向函数抛出数百万个随机输入,以查看逻辑在哪里中断。
- 现实检查: 在生产中,我们看到 Qodo 拒绝了约 40% 的“系统 1”AI 代码,因为疲劳的人类审核员可能会错过一些微妙的逐一错误或安全回归。
6.2 现实的流程:“痛苦的循环”
在理想化的演示中,代理编写代码,然后 CI 合并它。 事实上,管道是“特工挥舞”和“人类疲劳”的战场。
2025 年工作流程(现实世界):
- 提示(人类): 高级开发人员向 Cline 描述了一项功能。
- “初稿”(特工): 克莱恩撰写该专题。 看起来很完美。
- “幻影依赖”(CI 失败): 构建失败,因为代理导入了不存在的库或使用了 2024 年已弃用的软件包版本。
- “燃烧率”循环(代理):
- 代理发现错误。
- 它试图修复它。 失败了。
- 它会再次尝试。 失败了。
- 结果: 您刚刚在 GPT-5 上花费了 12.00 美元的 API 积分来修复人类可以在 30 秒内修复的循环。
- “审查瓶颈”(人类): PR 最终通过了 CI。 更改了 45 个文件。 高级开发人员打开它。
- 问题: 阅读代码比编写代码更难。 开发人员扫描了它,错过了一个微妙的状态管理错误,并出于疲劳批准了它。
- 生产(现实): 该功能有效,但“持久内存”指出代码库的复杂性增加了 15%。 技术债务现在正在自动生成。
6.3 隐藏成本:架构熵
2025年的危险不是“天网”; 它是大规模的意大利面条代码。
- 不一致: Agent A(使用 Claude)编写了Functional React。 代理 B(使用 GPT-5)编写 OOP 风格的类组件。 代码库变成了风格的精神分裂症。
- 膨胀: 人工智能代理更喜欢“添加代码”而不是“重构”。 他们很少删除旧的逻辑; 他们把它包裹起来。 在一年多的时间里,这导致了应用程序的巨大且难以维护的膨胀。
🎯 结论:建筑师是“看门人”
这个新时代的“十万字”不是我们写的,而是我们写的。 它们是由我们设计的系统生成的。 而且这些词大部分都是垃圾。
2025 年底,架构师的角色已从“总建造师”转变为**“总编辑”。**我们不再是创造的瓶颈;我们不再是创造的瓶颈; 我们是质量的瓶颈。
堆栈的最终真相:
- 人工智能生成数量。
- 人类执行质量。
- 堆栈的存在是为了管理两者之间的冲突。
你的工作不再是编写代码。 你的工作是构建“免疫系统”(MCP、Qodo、严格约束),防止人工智能将你的干净架构变成遗留噩梦。
欢迎来到重栈。 戴上头盔。