2981 字
15 分钟
架构师的 AI 堆栈:2025 年奇点版

##“从副驾驶到联合创始人”

目录#

  1. 2025年本体论:系统2与“聊天”的消亡
  2. 前沿引擎:技术深入探讨
  • GPT-5.1 和持久内存层 (PML)
  • 克劳德 4.5 作品:深刻的思考者
  • Gemini 3 Flash:实时代理
  1. 神经系统:模型上下文协议(MCP)
  • 架构与安全
  • 开源服务器生态系统
  1. 代理工作空间:IDE 与 IAD
  • 风帆冲浪和瀑布
  • 光标和作曲家 V2
  • Cline:开放的协调者
  1. 地方主权:私人堆栈
  • DeepSeek-R2 和蒸馏 *“模型操作系统”:Ollama v2
  1. 操作智能:测试和 CI/CD
  • 行为验证(Qodo) *“代理在环”管道

1.0 2025 年本体论:系统 2 与“聊天”的消亡#

2024 年的界面——“聊天机器人”——已经死了。 这是一个拟物化的桥梁,一个过渡阶段,我们将人工智能视为一个非常聪明的人,我们必须发短信。

2025 年末,接口为 Context。 我们不再与AI“聊天”; 我们“居住”在一个工作空间中,人工智能是操作系统中无所不在的、有状态的层。 今年的决定性转变是从概率令牌生成(系统 1)到推理优先规划(系统 2)。

1.1 “即时工程师”的崩溃#

“即时工程”已被 “上下文工程”取代。 你不再欺骗模型变得聪明; 这些模型(GPT-5、Opus 4.5)现在在原始逻辑方面比普通初级工程师更聪明。 架构师的工作现在严格来说是资源管理

  • 我应该将此任务路由到哪个模型?
  • 需要多少上下文?
  • 权限边界是什么?

2.0 前沿引擎:技术深入探讨#

“三巨头”已经分化为特定的进化生态位。 我们不再问“哪个最好?” 但是“哪一个适合专门的工作量?”

2.1 GPT-5.1 和持久内存层 (PML)#

OpenAI(发布:2025 年 8 月/预览:2025 年 12 月)

GPT-5代表了“通用智能”的巅峰。 但 5.1 预览版中其定义功能是 PML(持久内存层)

2.1.1 PML技术架构#

PML 不是 RAG(检索增强生成)。 RAG是一个搜索引擎; 它找到文档。 PML 是一个状态机

  • 向量与图: 传统 RAG 使用向量嵌入(模糊匹配)。 PML 使用知识图。 当您在对话中定义变量时,GPT-5.1 将其映射为特定于项目的图中的节点。
  • “写入”操作: 当用户建立约束(例如,“所有日期必须为 UTC”)时,模型会执行MEM_WRITE手术。 这是原子的和持久的。
  • “执行”层: 在生成任何未来代码之前,模型会遍历图表。 如果生成的令牌违反了约束节点(例如,生成new Date()而不是moment.utc()),在令牌发出之前,logits 会被抑制。
TIP

{title=“Architectural Impact”} 这允许**“零射击入门”。**新的聊天会话不是从零开始;而是从零开始。 它从项目知识图的确切状态开始。

2.2 克劳德 4.5 作品:深度思考者#

人择(发布:2025 年 11 月)

如果 GPT-5 是首席执行官,那么 Claude 4.5 Opus 就是首席研究员。 它速度慢、成本高,而且非常出色。

2.2.1 200万代币“完美召回”#

Claude 4.5 实现了以前不可能实现的目标:大规模线性注意力。 它可以容纳 2,000,000 个令牌上下文窗口(大约 15,000 个代码文件),具有 99.93% 大海捞针召回率

  • 用例:“大重构” 您可以向 Claude 4.5 提供整个遗留 Java 整体并询问:“识别导致竞争条件的单例模式的每个实例,并重写它们以使用依赖注入。”* 它将思考 45 秒(系统 2 暂停),然后输出一个涉及 400 个文件的计划,而不会产生任何导入路径的幻觉。

2.3 Gemini 3 Flash:实时代理#

Google(发布:2025 年 12 月)

Gemini 3 Flash 改变了人工智能的经济学。 它是多模式本机延迟优化

  • “0.2 秒”障碍: Gemini 3 Flash 可以在 200 毫秒内获取 UI 错误的屏幕截图、OCR 文本、解析日志并提出修复建议。
  • 代理循环: 因为它非常便宜(0.10 美元/100 万代币),我们现在将它用于“强力推理”。 我们可以生成 50 个并行代理来同时尝试 50 个不同的错误修复,运行测试,并且只向用户呈现通过的测试。

3.0 神经系统:模型上下文协议(MCP)#

由 Anthropic & Linux Foundation (2025) 标准化

2025 年之前,将人工智能与数据连接意味着编写脆弱的 API 粘合代码。 MCP 是“USB-C 智能”。 它为任何模型创建了与任何数据源对话的标准方式。

3.1 MCP 的工作原理(“客户端-主机-服务器”模型)#

  1. MCP 主机: 运行 AI 的应用程序(例如 Claude Desktop、Cursor、Cline)。
  2. MCP 服务器: 一个公开数据的轻量级沙盒进程。
  3. MCP 客户端: AI 模型本身。
Example: The Anatomy of an MCP Request
// The AI wants to check a database.
// It sends a JSON-RPC message to the Host.
{
"jsonrpc": "2.0",
"method": "callTool",
"params": {
"name": "postgres_query",
"arguments": {
"query": "SELECT * FROM users WHERE status = 'active' LIMIT 5"
}
}
}
// The Host validates permissions ("Does this AI have DB access?").
// The Host forwards to the Postgres MCP Server.
// The Server executes and returns the JSON result.

社区中的免费 MCP 服务器数量呈爆炸式增长。 您今天可以在本地运行这些。

服务器能力命令
@modelcontextprotocol/server-postgres只读 SQL 模式检查和查询。docker run mcp/postgres
@modelcontextprotocol/server-github问题跟踪、公关评论、文件搜索。npx -y @mcp/server-github
@modelcontextprotocol/服务器文件系统安全的本地文件访问(沙盒)。npx -y @mcp/server-filesystem
mcp-服务器-k8sKubernetes集群检查和日志读取。go run mcp-k8s
mcp 服务器浏览器用于网页浏览/测试的无头铬。npx -y @mcp/browser

4.0 代理工作空间:IDE 与 IAD#

“集成开发环境”(IDE) 已过时。 我们现在在**“集成代理环境”(IAD)**中工作。

4.1 风帆冲浪:“心流”状态#

Windsurf(Codeium 出品)引入了**“Cascades”的概念。**

  • 深度上下文感知: Windsurf 不仅仅查看打开的文件。 它索引您的变量定义、导入图和最近的终端输出。
  • 预测导航: 如果您更改后端中的函数签名,Windsurf 主动会打开调用它的前端文件,甚至在您运行编译器之前突出显示中断。

4.2 Cline:开源协调器#

Cline 是开源世界的英雄。 它是一个 VS Code 扩展,可将编辑器变成自主代理

  • “Act”循环: Cline 不只是建议代码;它还建议代码。 它运行终端命令。 它可以: 1.npm test(失败)
  1. 阅读错误。
  2. 编辑文件。 4.npm test(通过) 5.git commit* MCP 集成: Cline 是最先进的 MCP 客户端。 您可以链接工具:“使用 GitHub MCP 查找问题,使用 Postgres MCP 检查数据,然后编写修复程序。”

5.0 本地主权:私有堆栈#

对于处理 HIPAA、GDPR 或商业秘密的企业来说,云不是一个选择。 2025年实现“本地智能”突破。

5.1 DeepSeek-R2:开放重量奇迹#

DeepSeek-R2 是一种开放权重模型,可与 GPT-4o 竞争,但可以在消费类硬件上运行。

  • 蒸馏: 它是使用来自较大推理模型的“知识蒸馏”进行训练的,使其能够用更少的参数进行深入的“思考”。
  • 隐私: 通过在本地 Mac Studio 或 NVIDIA H100 集群上运行 DeepSeek-R2,公司可以获得“气隙智能”。 任何数据都不会离开大楼。

5.2 Ollama v2.0:模型操作系统#

Ollama 现在是本地 AI 的标准运行时。

  • 热插拔: Ollama v2 保持 VRAM 中加载的“基本”权重,并立即热插拔“LoRA 适配器”(低阶适应)。 你可以在10毫秒内从“编码专家”切换到“创意作家”。

6.0 情报运作:“审查危机”#

2025 年的根本问题不是生成代码,而是生成代码。 它正在验证它。 当初级开发人员(或 AI 代理)可以在 30 秒内生成 5000 行复杂的 React 逻辑时,高级架构师就成为瓶颈。 我们已经进入了**“代码倾斜”**的时代——代码看起来正确,通过了单元测试,但引入了微妙的架构漂移。

6.1 Qodo(以前的 Codium):“BS 探测器”#

像 Qodo 这样的工具不再是“拥有就好”——它们是防御性基础设施。 他们的主要工作不仅仅是测试,还有幻觉遏制

  • “信心悬崖”: 人工智能代理即使在错误的情况下也非常自信。 Qodo 担任公正的审计员。
  • 基于属性的模糊测试: 由于我们不能相信人工智能能够理解边缘情况,因此我们使用 Qodo 来“模糊”代理的代码——向函数抛出数百万个随机输入,以查看逻辑在哪里中断。
  • 现实检查: 在生产中,我们看到 Qodo 拒绝了约 40% 的“系统 1”AI 代码,因为疲劳的人类审核员可能会错过一些微妙的逐一错误或安全回归。

6.2 现实的流程:“痛苦的循环”#

在理想化的演示中,代理编写代码,然后 CI 合并它。 事实上,管道是“特工挥舞”和“人类疲劳”的战场。

2025 年工作流程(现实世界):

  1. 提示(人类): 高级开发人员向 Cline 描述了一项功能。
  2. “初稿”(特工): 克莱恩撰写该专题。 看起来很完美。
  3. “幻影依赖”(CI 失败): 构建失败,因为代理导入了不存在的库或使用了 2024 年已弃用的软件包版本。
  4. “燃烧率”循环(代理):
  • 代理发现错误。
  • 它试图修复它。 失败了。
  • 它会再次尝试。 失败了。
  • 结果: 您刚刚在 GPT-5 上花费了 12.00 美元的 API 积分来修复人类可以在 30 秒内修复的循环。
  1. “审查瓶颈”(人类): PR 最终通过了 CI。 更改了 45 个文件。 高级开发人员打开它。
  • 问题: 阅读代码比编写代码更难。 开发人员扫描了它,错过了一个微妙的状态管理错误,并出于疲劳批准了它。
  1. 生产(现实): 该功能有效,但“持久内存”指出代码库的复杂性增加了 15%。 技术债务现在正在自动生成。

6.3 隐藏成本:架构熵#

2025年的危险不是“天网”; 它是大规模的意大利面条代码

  • 不一致: Agent A(使用 Claude)编写了Functional React。 代理 B(使用 GPT-5)编写 OOP 风格的类组件。 代码库变成了风格的精神分裂症。
  • 膨胀: 人工智能代理更喜欢“添加代码”而不是“重构”。 他们很少删除旧的逻辑; 他们把它包裹起来。 在一年多的时间里,这导致了应用程序的巨大且难以维护的膨胀。

🎯 结论:建筑师是“看门人”#

这个新时代的“十万字”不是我们写的,而是我们写的。 它们是由我们设计的系统生成的。 而且这些词大部分都是垃圾。

2025 年底,架构师的角色已从“总建造师”转变为**“总编辑”。**我们不再是创造的瓶颈;我们不再是创造的瓶颈; 我们是质量的瓶颈。

堆栈的最终真相:

  1. 人工智能生成数量。
  2. 人类执行质量。
  3. 堆栈的存在是为了管理两者之间的冲突。

你的工作不再是编写代码。 你的工作是构建“免疫系统”(MCP、Qodo、严格约束),防止人工智能将你的干净架构变成遗留噩梦。

欢迎来到重栈。 戴上头盔。

架构师的 AI 堆栈:2025 年奇点版
https://banije.vercel.app/zh_CN/posts/ai_tools/
作者
ibra-kdbra
发布于
2025-12-31
许可协议
CC BY-NC-SA 4.0