架構師的 AI 堆棧：2025 年奇點版

2984 字

15 分鐘

架構師的 AI 堆棧：2025 年奇點版

2025-12-31

Engineering

AI

/

Architecture

/

Future-Tech

AI Foundations

##“從副駕駛到聯合創始人”

目錄#

2025年本體論：系統2與“聊天”的消亡
前沿引擎：技術深入探討

GPT-5.1 和持久內存層 (PML)
克勞德 4.5 作品：深刻的思考者
Gemini 3 Flash：實時代理

神經系統：模型上下文協議（MCP）

架構與安全
開源服務器生態系統

代理工作空間：IDE 與 IAD

風帆衝浪和瀑布
光標和作曲家 V2
Cline：開放的協調者

地方主權：私人堆棧

DeepSeek-R2 和蒸餾 *“模型操作系統”：Ollama v2

操作智能：測試和 CI/CD

行為驗證（Qodo） *“代理在環”管道

1.0 2025 年本體論：系統 2 與“聊天”的消亡#

2024 年的界面——“聊天機器人”——已經死了。這是一個擬物化的橋樑，一個過渡階段，我們將人工智能視為一個非常聰明的人，我們必鬚髮短信。

2025 年末，接口為 Context。我們不再與AI“聊天”；我們“居住”在一個工作空間中，人工智能是操作系統中無所不在的、有狀態的層。今年的決定性轉變是從概率令牌生成（系統 1）到推理優先規劃（系統 2）。

1.1 “即時工程師”的崩潰#

“即時工程”已被 “上下文工程”取代。 ** 你不再欺騙模型變得聰明；這些模型（GPT-5、Opus 4.5）現在在原始邏輯方面比普通初級工程師更聰明。架構師的工作現在嚴格來說是資源管理**：

*我應該將此任務路由到哪個模型？ *
*需要多少上下文？ *
*權限邊界是什麼？ *

2.0 前沿引擎：技術深入探討#

“三巨頭”已經分化為特定的進化生態位。我們不再問“哪個最好？”但是“哪一個適合專門的工作量？”

2.1 GPT-5.1 和持久內存層 (PML)#

OpenAI（發布：2025 年 8 月/預覽：2025 年 12 月）

GPT-5代表了“通用智能”的巔峰。但 5.1 預覽版中其定義功能是 PML（持久內存層）。

2.1.1 PML技術架構#

PML 不是 RAG（檢索增強生成）。 RAG是一個搜索引擎；它找到文檔。 PML 是一個狀態機。

向量與圖： 傳統 RAG 使用向量嵌入（模糊匹配）。 PML 使用知識圖。當您在對話中定義變量時，GPT-5.1 將其映射為特定於項目的圖中的節點。
“寫入”操作： 當用戶建立約束（例如，“所有日期必須為 UTC”）時，模型會執行MEM_WRITE手術。這是原子的和持久的。
“執行”層： 在生成任何未來代碼之前，模型會遍歷圖表。如果生成的令牌違反了約束節點（例如，生成new Date()而不是moment.utc()），在令牌發出之前，logits 會被抑制。

TIP
{title=“Architectural Impact”} 這允許**“零射擊入門”。 **新的聊天會話不是從零開始；而是從零開始。它從項目知識圖的確切狀態開始。

2.2 克勞德 4.5 作品：深度思考者#

人擇（發布：2025 年 11 月）

如果 GPT-5 是首席執行官，那麼 Claude 4.5 Opus 就是首席研究員。它速度慢、成本高，而且非常出色。

2.2.1 200萬代幣“完美召回”#

Claude 4.5 實現了以前不可能實現的目標：大規模線性注意力。它可以容納 2,000,000 個令牌上下文窗口（大約 15,000 個代碼文件），具有 99.93% 大海撈針召回率。

用例：“大重構” 您可以向 Claude 4.5 提供整個遺留 Java 整體並詢問：“識別導致競爭條件的單例模式的每個實例，並重寫它們以使用依賴注入。”* 它將思考 45 秒（系統 2 暫停），然後輸出一個涉及 400 個文件的計劃，而不會產生任何導入路徑的幻覺。

2.3 Gemini 3 Flash：實時代理#

Google（發布：2025 年 12 月）

Gemini 3 Flash 改變了人工智能的經濟學。它是多模式本機和延遲優化。

“0.2 秒”障礙： Gemini 3 Flash 可以在 200 毫秒內獲取 UI 錯誤的屏幕截圖、OCR 文本、解析日誌並提出修復建議。
代理循環： 因為它非常便宜（0.10 美元/100 萬代幣），我們現在將它用於“強力推理”。我們可以生成 50 個並行代理來同時嘗試 50 個不同的錯誤修復，運行測試，並且只向用戶呈現通過的測試。

3.0 神經系統：模型上下文協議（MCP）#

由 Anthropic & Linux Foundation (2025) 標準化

2025 年之前，將人工智能與數據連接意味著編寫脆弱的 API 粘合代碼。 MCP 是“USB-C 智能”。它為任何模型創建了與任何數據源對話的標準方式。

3.1 MCP 的工作原理（“客戶端-主機-服務器”模型）#

MCP 主機： 運行 AI 的應用程序（例如 Claude Desktop、Cursor、Cline）。
MCP 服務器： 一個公開數據的輕量級沙盒進程。
MCP 客戶端： AI 模型本身。

1
// The AI wants to check a database.
2
// It sends a JSON-RPC message to the Host.
3
{
4
  "jsonrpc": "2.0",
5
  "method": "callTool",
6
  "params": {
7
    "name": "postgres_query",
8
    "arguments": {
9
      "query": "SELECT * FROM users WHERE status = 'active' LIMIT 5"
10
    }
11
  }
12
}
13
// The Host validates permissions ("Does this AI have DB access?").
14
// The Host forwards to the Postgres MCP Server.
15
// The Server executes and returns the JSON result.

社區中的免費 MCP 服務器數量呈爆炸式增長。您今天可以在本地運行這些。

服務器	能力	命令
@modelcontextprotocol/server-postgres	只讀 SQL 模式檢查和查詢。	`docker run mcp/postgres`
@modelcontextprotocol/server-github	問題跟踪、公關評論、文件搜索。	`npx -y @mcp/server-github`
@modelcontextprotocol/服務器文件系統	安全的本地文件訪問（沙盒）。	`npx -y @mcp/server-filesystem`
mcp-服務器-k8s	Kubernetes集群檢查和日誌讀取。	`go run mcp-k8s`
mcp 服務器瀏覽器	用於網頁瀏覽/測試的無頭鉻。	`npx -y @mcp/browser`

4.0 代理工作空間：IDE 與 IAD#

“集成開發環境”(IDE) 已過時。我們現在在**“集成代理環境”（IAD）**中工作。

4.1 風帆衝浪：“心流”狀態#

Windsurf（Codeium 出品）引入了**“Cascades”的概念。 **

深度上下文感知： Windsurf 不僅僅查看打開的文件。它索引您的變量定義、導入圖和最近的終端輸出。
預測導航： 如果您更改後端中的函數簽名，Windsurf 主動會打開調用它的前端文件，甚至在您運行編譯器之前突出顯示中斷。

4.2 Cline：開源協調器#

Cline 是開源世界的英雄。它是一個 VS Code 擴展，可將編輯器變成自主代理。

“Act”循環： Cline 不只是建議代碼；它還建議代碼。它運行終端命令。它可以： 1.npm test（失敗）

閱讀錯誤。
編輯文件。 4.npm test（通過） 5.git commit* MCP 集成： Cline 是最先進的 MCP 客戶端。您可以鏈接工具：“使用 GitHub MCP 查找問題，使用 Postgres MCP 檢查數據，然後編寫修復程序。”

5.0 本地主權：私有堆棧#

對於處理 HIPAA、GDPR 或商業秘密的企業來說，云不是一個選擇。 2025年實現“本地智能”突破。

5.1 DeepSeek-R2：開放重量奇蹟#

DeepSeek-R2 是一種開放權重模型，可與 GPT-4o 競爭，但可以在消費類硬件上運行。

蒸餾： 它是使用來自較大推理模型的“知識蒸餾”進行訓練的，使其能夠用更少的參數進行深入的“思考”。
隱私： 通過在本地 Mac Studio 或 NVIDIA H100 集群上運行 DeepSeek-R2，公司可以獲得“氣隙智能”。任何數據都不會離開大樓。

5.2 Ollama v2.0：模型操作系統#

Ollama 現在是本地 AI 的標準運行時。

熱插拔： Ollama v2 保持 VRAM 中加載的“基本”權重，並立即熱插拔“LoRA 適配器”（低階適應）。你可以在10毫秒內從“編碼專家”切換到“創意作家”。

6.0 情報運作：“審查危機”#

2025 年的根本問題不是生成代碼，而是生成代碼。它正在驗證它。當初級開發人員（或 AI 代理）可以在 30 秒內生成 5000 行複雜的 React 邏輯時，高級架構師就成為瓶頸。我們已經進入了**“代碼傾斜”**的時代——代碼看起來正確，通過了單元測試，但引入了微妙的架構漂移。

6.1 Qodo（以前的 Codium）：“BS 探測器”#

像 Qodo 這樣的工具不再是“擁有就好”——它們是防禦性基礎設施。他們的主要工作不僅僅是測試，還有幻覺收容。

“信心懸崖”： 人工智能代理即使在錯誤的情況下也非常自信。 Qodo 擔任公正的審計員。
基於屬性的模糊測試： 由於我們不能相信人工智能能夠理解邊緣情況，因此我們使用 Qodo 來“模糊”代理的代碼——向函數拋出數百萬個隨機輸入，以查看邏輯在哪里中斷。
現實檢查： 在生產中，我們看到 Qodo 拒絕了約 40% 的“系統 1”AI 代碼，因為疲勞的人類審核員可能會錯過一些微妙的逐一錯誤或安全回歸。

6.2 現實的流程：“痛苦的循環”#

在理想化的演示中，代理編寫代碼，然後 CI 合併它。事實上，管道是“特工揮舞”和“人類疲勞”的戰場。

2025 年工作流程（現實世界）：

提示（人類）： 高級開發人員向 Cline 描述了一項功能。
“初稿”（特工）： 克萊恩撰寫該專題。看起來很完美。
“幻影依賴”（CI 失敗）： 構建失敗，因為代理導入了不存在的庫或使用了 2024 年已棄用的軟件包版本。
“燃燒率”循環（代理）：

代理髮現錯誤。
它試圖修復它。失敗了。
它會再次嘗試。失敗了。
結果： 您剛剛在 GPT-5 上花費了 12.00 美元的 API 積分來修復人類可以在 30 秒內修復的循環。

“審查瓶頸”（人類）： PR 最終通過了 CI。更改了 45 個文件。高級開發人員打開它。

問題： 閱讀代碼比編寫代碼更難。開發人員掃描了它，錯過了一個微妙的狀態管理錯誤，並出於疲勞批准了它。

生產（現實）： 該功能有效，但“持久內存”指出代碼庫的複雜性增加了 15%。技術債務現在正在自動生成。

6.3 隱藏成本：架構熵#

2025年的危險不是“天網”；它是大規模的意大利麵條代碼。

不一致： Agent A（使用 Claude）編寫了Functional React。代理 B（使用 GPT-5）編寫 OOP 風格的類組件。代碼庫變成了風格的精神分裂症。
膨脹： 人工智能代理更喜歡“添加代碼”而不是“重構”。他們很少刪除舊的邏輯；他們把它包裹起來。在一年多的時間裡，這導致了應用程序的巨大且難以維護的膨脹。

🎯 結論：建築師是“看門人”#

這個新時代的“十萬字”不是我們寫的，而是我們寫的。它們是由我們設計的系統生成的。而且這些詞大部分都是垃圾。

2025 年底，架構師的角色已從“總建造師”轉變為**“總編輯”。 **我們不再是創造的瓶頸；我們不再是創造的瓶頸；我們是質量的瓶頸。

堆棧的最終真相：

**人工智能生成數量。 **
**人類執行質量。 **
**堆棧的存在是為了管理兩者之間的衝突。 **

你的工作不再是編寫代碼。你的工作是構建“免疫系統”（MCP、Qodo、嚴格約束），防止人工智能將你的干淨架構變成遺留噩夢。

歡迎來到重棧。戴上頭盔。

架構師的 AI 堆棧：2025 年奇點版

https://banije.vercel.app/zh_TW/posts/ai_tools/

作者

ibra-kdbra

發佈於

2025-12-31

許可協議

CC BY-NC-SA 4.0

Linux 磁盤分區 - 工程角色的最佳捲和策略