2984 字
15 分鐘
架構師的 AI 堆棧:2025 年奇點版

##“從副駕駛到聯合創始人”

目錄#

  1. 2025年本體論:系統2與“聊天”的消亡
  2. 前沿引擎:技術深入探討
  • GPT-5.1 和持久內存層 (PML)
  • 克勞德 4.5 作品:深刻的思考者
  • Gemini 3 Flash:實時代理
  1. 神經系統:模型上下文協議(MCP)
  • 架構與安全
  • 開源服務器生態系統
  1. 代理工作空間:IDE 與 IAD
  • 風帆衝浪和瀑布
  • 光標和作曲家 V2
  • Cline:開放的協調者
  1. 地方主權:私人堆棧
  • DeepSeek-R2 和蒸餾 *“模型操作系統”:Ollama v2
  1. 操作智能:測試和 CI/CD
  • 行為驗證(Qodo) *“代理在環”管道

1.0 2025 年本體論:系統 2 與“聊天”的消亡#

2024 年的界面——“聊天機器人”——已經死了。 這是一個擬物化的橋樑,一個過渡階段,我們將人工智能視為一個非常聰明的人,我們必鬚髮短信。

2025 年末,接口為 Context。 我們不再與AI“聊天”;我們“居住”在一個工作空間中,人工智能是操作系統中無所不在的、有狀態的層。 今年的決定性轉變是從概率令牌生成(系統 1)到推理優先規劃(系統 2)。

1.1 “即時工程師”的崩潰#

“即時工程”已被 “上下文工程”取代。 ** 你不再欺騙模型變得聰明;這些模型(GPT-5、Opus 4.5)現在在原始邏輯方面比普通初級工程師更聰明。 架構師的工作現在嚴格來說是資源管理**:

  • *我應該將此任務路由到哪個模型? *
  • *需要多少上下文? *
  • *權限邊界是什麼? *

2.0 前沿引擎:技術深入探討#

“三巨頭”已經分化為特定的進化生態位。 我們不再問“哪個最好?”但是“哪一個適合專門的工作量?”

2.1 GPT-5.1 和持久內存層 (PML)#

OpenAI(發布:2025 年 8 月/預覽:2025 年 12 月)

GPT-5代表了“通用智能”的巔峰。 但 5.1 預覽版中其定義功能是 PML(持久內存層)

2.1.1 PML技術架構#

PML 不是 RAG(檢索增強生成)。 RAG是一個搜索引擎;它找到文檔。 PML 是一個狀態機

  • 向量與圖: 傳統 RAG 使用向量嵌入(模糊匹配)。 PML 使用知識圖。 當您在對話中定義變量時,GPT-5.1 將其映射為特定於項目的圖中的節點。
  • “寫入”操作: 當用戶建立約束(例如,“所有日期必須為 UTC”)時,模型會執行MEM_WRITE手術。 這是原子的和持久的。
  • “執行”層: 在生成任何未來代碼之前,模型會遍歷圖表。 如果生成的令牌違反了約束節點(例如,生成new Date()而不是moment.utc()),在令牌發出之前,logits 會被抑制。
TIP

{title=“Architectural Impact”} 這允許**“零射擊入門”。 **新的聊天會話不是從零開始;而是從零開始。 它從項目知識圖的確切狀態開始。

2.2 克勞德 4.5 作品:深度思考者#

人擇(發布:2025 年 11 月)

如果 GPT-5 是首席執行官,那麼 Claude 4.5 Opus 就是首席研究員。 它速度慢、成本高,而且非常出色。

2.2.1 200萬代幣“完美召回”#

Claude 4.5 實現了以前不可能實現的目標:大規模線性注意力。 它可以容納 2,000,000 個令牌上下文窗口(大約 15,000 個代碼文件),具有 99.93% 大海撈針召回率

  • 用例:“大重構” 您可以向 Claude 4.5 提供整個遺留 Java 整體並詢問:“識別導致競爭條件的單例模式的每個實例,並重寫它們以使用依賴注入。”* 它將思考 45 秒(系統 2 暫停),然後輸出一個涉及 400 個文件的計劃,而不會產生任何導入路徑的幻覺。

2.3 Gemini 3 Flash:實時代理#

Google(發布:2025 年 12 月)

Gemini 3 Flash 改變了人工智能的經濟學。 它是多模式本機延遲優化

  • “0.2 秒”障礙: Gemini 3 Flash 可以在 200 毫秒內獲取 UI 錯誤的屏幕截圖、OCR 文本、解析日誌並提出修復建議。
  • 代理循環: 因為它非常便宜(0.10 美元/100 萬代幣),我們現在將它用於“強力推理”。 我們可以生成 50 個並行代理來同時嘗試 50 個不同的錯誤修復,運行測試,並且只向用戶呈現通過的測試。

3.0 神經系統:模型上下文協議(MCP)#

由 Anthropic & Linux Foundation (2025) 標準化

2025 年之前,將人工智能與數據連接意味著編寫脆弱的 API 粘合代碼。 MCP 是“USB-C 智能”。 它為任何模型創建了與任何數據源對話的標準方式。

3.1 MCP 的工作原理(“客戶端-主機-服務器”模型)#

  1. MCP 主機: 運行 AI 的應用程序(例如 Claude Desktop、Cursor、Cline)。
  2. MCP 服務器: 一個公開數據的輕量級沙盒進程。
  3. MCP 客戶端: AI 模型本身。
Example: The Anatomy of an MCP Request
// The AI wants to check a database.
// It sends a JSON-RPC message to the Host.
{
"jsonrpc": "2.0",
"method": "callTool",
"params": {
"name": "postgres_query",
"arguments": {
"query": "SELECT * FROM users WHERE status = 'active' LIMIT 5"
}
}
}
// The Host validates permissions ("Does this AI have DB access?").
// The Host forwards to the Postgres MCP Server.
// The Server executes and returns the JSON result.

社區中的免費 MCP 服務器數量呈爆炸式增長。 您今天可以在本地運行這些。

服務器能力命令
@modelcontextprotocol/server-postgres只讀 SQL 模式檢查和查詢。docker run mcp/postgres
@modelcontextprotocol/server-github問題跟踪、公關評論、文件搜索。npx -y @mcp/server-github
@modelcontextprotocol/服務器文件系統安全的本地文件訪問(沙盒)。npx -y @mcp/server-filesystem
mcp-服務器-k8sKubernetes集群檢查和日誌讀取。go run mcp-k8s
mcp 服務器瀏覽器用於網頁瀏覽/測試的無頭鉻。npx -y @mcp/browser

4.0 代理工作空間:IDE 與 IAD#

“集成開發環境”(IDE) 已過時。 我們現在在**“集成代理環境”(IAD)**中工作。

4.1 風帆衝浪:“心流”狀態#

Windsurf(Codeium 出品)引入了**“Cascades”的概念。 **

  • 深度上下文感知: Windsurf 不僅僅查看打開的文件。 它索引您的變量定義、導入圖和最近的終端輸出。
  • 預測導航: 如果您更改後端中的函數簽名,Windsurf 主動會打開調用它的前端文件,甚至在您運行編譯器之前突出顯示中斷。

4.2 Cline:開源協調器#

Cline 是開源世界的英雄。 它是一個 VS Code 擴展,可將編輯器變成自主代理

  • “Act”循環: Cline 不只是建議代碼;它還建議代碼。 它運行終端命令。 它可以: 1.npm test(失敗)
  1. 閱讀錯誤。
  2. 編輯文件。 4.npm test(通過) 5.git commit* MCP 集成: Cline 是最先進的 MCP 客戶端。 您可以鏈接工具:“使用 GitHub MCP 查找問題,使用 Postgres MCP 檢查數據,然後編寫修復程序。”

5.0 本地主權:私有堆棧#

對於處理 HIPAA、GDPR 或商業秘密的企業來說,云不是一個選擇。 2025年實現“本地智能”突破。

5.1 DeepSeek-R2:開放重量奇蹟#

DeepSeek-R2 是一種開放權重模型,可與 GPT-4o 競爭,但可以在消費類硬件上運行。

  • 蒸餾: 它是使用來自較大推理模型的“知識蒸餾”進行訓練的,使其能夠用更少的參數進行深入的“思考”。
  • 隱私: 通過在本地 Mac Studio 或 NVIDIA H100 集群上運行 DeepSeek-R2,公司可以獲得“氣隙智能”。 任何數據都不會離開大樓。

5.2 Ollama v2.0:模型操作系統#

Ollama 現在是本地 AI 的標準運行時。

  • 熱插拔: Ollama v2 保持 VRAM 中加載的“基本”權重,並立即熱插拔“LoRA 適配器”(低階適應)。 你可以在10毫秒內從“編碼專家”切換到“創意作家”。

6.0 情報運作:“審查危機”#

2025 年的根本問題不是生成代碼,而是生成代碼。 它正在驗證它。 當初級開發人員(或 AI 代理)可以在 30 秒內生成 5000 行複雜的 React 邏輯時,高級架構師就成為瓶頸。 我們已經進入了**“代碼傾斜”**的時代——代碼看起來正確,通過了單元測試,但引入了微妙的架構漂移。

6.1 Qodo(以前的 Codium):“BS 探測器”#

像 Qodo 這樣的工具不再是“擁有就好”——它們是防禦性基礎設施。 他們的主要工作不僅僅是測試,還有幻覺收容

  • “信心懸崖”: 人工智能代理即使在錯誤的情況下也非常自信。 Qodo 擔任公正的審計員。
  • 基於屬性的模糊測試: 由於我們不能相信人工智能能夠理解邊緣情況,因此我們使用 Qodo 來“模糊”代理的代碼——向函數拋出數百萬個隨機輸入,以查看邏輯在哪里中斷。
  • 現實檢查: 在生產中,我們看到 Qodo 拒絕了約 40% 的“系統 1”AI 代碼,因為疲勞的人類審核員可能會錯過一些微妙的逐一錯誤或安全回歸。

6.2 現實的流程:“痛苦的循環”#

在理想化的演示中,代理編寫代碼,然後 CI 合併它。 事實上,管道是“特工揮舞”和“人類疲勞”的戰場。

2025 年工作流程(現實世界):

  1. 提示(人類): 高級開發人員向 Cline 描述了一項功能。
  2. “初稿”(特工): 克萊恩撰寫該專題。 看起來很完美。
  3. “幻影依賴”(CI 失敗): 構建失敗,因為代理導入了不存在的庫或使用了 2024 年已棄用的軟件包版本。
  4. “燃燒率”循環(代理):
  • 代理髮現錯誤。
  • 它試圖修復它。 失敗了。
  • 它會再次嘗試。 失敗了。
  • 結果: 您剛剛在 GPT-5 上花費了 12.00 美元的 API 積分來修復人類可以在 30 秒內修復的循環。
  1. “審查瓶頸”(人類): PR 最終通過了 CI。 更改了 45 個文件。 高級開發人員打開它。
  • 問題: 閱讀代碼比編寫代碼更難。 開發人員掃描了它,錯過了一個微妙的狀態管理錯誤,並出於疲勞批准了它。
  1. 生產(現實): 該功能有效,但“持久內存”指出代碼庫的複雜性增加了 15%。 技術債務現在正在自動生成。

6.3 隱藏成本:架構熵#

2025年的危險不是“天網”;它是大規模的意大利麵條代碼

  • 不一致: Agent A(使用 Claude)編寫了Functional React。 代理 B(使用 GPT-5)編寫 OOP 風格的類組件。 代碼庫變成了風格的精神分裂症。
  • 膨脹: 人工智能代理更喜歡“添加代碼”而不是“重構”。 他們很少刪除舊的邏輯;他們把它包裹起來。 在一年多的時間裡,這導致了應用程序的巨大且難以維護的膨脹。

🎯 結論:建築師是“看門人”#

這個新時代的“十萬字”不是我們寫的,而是我們寫的。 它們是由我們設計的系統生成的。 而且這些詞大部分都是垃圾。

2025 年底,架構師的角色已從“總建造師”轉變為**“總編輯”。 **我們不再是創造的瓶頸;我們不再是創造的瓶頸;我們是質量的瓶頸。

堆棧的最終真相:

  1. **人工智能生成數量。 **
  2. **人類執行質量。 **
  3. **堆棧的存在是為了管理兩者之間的衝突。 **

你的工作不再是編寫代碼。你的工作是構建“免疫系統”(MCP、Qodo、嚴格約束),防止人工智能將你的干淨架構變成遺​​留噩夢。

歡迎來到重棧。 戴上頭盔。

架構師的 AI 堆棧:2025 年奇點版
https://banije.vercel.app/zh_TW/posts/ai_tools/
作者
ibra-kdbra
發佈於
2025-12-31
許可協議
CC BY-NC-SA 4.0