##“從副駕駛到聯合創始人”
目錄
- 2025年本體論:系統2與“聊天”的消亡
- 前沿引擎:技術深入探討
- GPT-5.1 和持久內存層 (PML)
- 克勞德 4.5 作品:深刻的思考者
- Gemini 3 Flash:實時代理
- 神經系統:模型上下文協議(MCP)
- 架構與安全
- 開源服務器生態系統
- 代理工作空間:IDE 與 IAD
- 風帆衝浪和瀑布
- 光標和作曲家 V2
- Cline:開放的協調者
- 地方主權:私人堆棧
- DeepSeek-R2 和蒸餾 *“模型操作系統”:Ollama v2
- 操作智能:測試和 CI/CD
- 行為驗證(Qodo) *“代理在環”管道
1.0 2025 年本體論:系統 2 與“聊天”的消亡
2024 年的界面——“聊天機器人”——已經死了。 這是一個擬物化的橋樑,一個過渡階段,我們將人工智能視為一個非常聰明的人,我們必鬚髮短信。
2025 年末,接口為 Context。 我們不再與AI“聊天”;我們“居住”在一個工作空間中,人工智能是操作系統中無所不在的、有狀態的層。 今年的決定性轉變是從概率令牌生成(系統 1)到推理優先規劃(系統 2)。
1.1 “即時工程師”的崩潰
“即時工程”已被 “上下文工程”取代。 ** 你不再欺騙模型變得聰明;這些模型(GPT-5、Opus 4.5)現在在原始邏輯方面比普通初級工程師更聰明。 架構師的工作現在嚴格來說是資源管理**:
- *我應該將此任務路由到哪個模型? *
- *需要多少上下文? *
- *權限邊界是什麼? *
2.0 前沿引擎:技術深入探討
“三巨頭”已經分化為特定的進化生態位。 我們不再問“哪個最好?”但是“哪一個適合專門的工作量?”
2.1 GPT-5.1 和持久內存層 (PML)
OpenAI(發布:2025 年 8 月/預覽:2025 年 12 月)
GPT-5代表了“通用智能”的巔峰。 但 5.1 預覽版中其定義功能是 PML(持久內存層)。
2.1.1 PML技術架構
PML 不是 RAG(檢索增強生成)。 RAG是一個搜索引擎;它找到文檔。 PML 是一個狀態機。
- 向量與圖: 傳統 RAG 使用向量嵌入(模糊匹配)。 PML 使用知識圖。 當您在對話中定義變量時,GPT-5.1 將其映射為特定於項目的圖中的節點。
- “寫入”操作: 當用戶建立約束(例如,“所有日期必須為 UTC”)時,模型會執行
MEM_WRITE手術。 這是原子的和持久的。 - “執行”層: 在生成任何未來代碼之前,模型會遍歷圖表。 如果生成的令牌違反了約束節點(例如,生成
new Date()而不是moment.utc()),在令牌發出之前,logits 會被抑制。
TIP{title=“Architectural Impact”} 這允許**“零射擊入門”。 **新的聊天會話不是從零開始;而是從零開始。 它從項目知識圖的確切狀態開始。
2.2 克勞德 4.5 作品:深度思考者
人擇(發布:2025 年 11 月)
如果 GPT-5 是首席執行官,那麼 Claude 4.5 Opus 就是首席研究員。 它速度慢、成本高,而且非常出色。
2.2.1 200萬代幣“完美召回”
Claude 4.5 實現了以前不可能實現的目標:大規模線性注意力。 它可以容納 2,000,000 個令牌上下文窗口(大約 15,000 個代碼文件),具有 99.93% 大海撈針召回率。
- 用例:“大重構” 您可以向 Claude 4.5 提供整個遺留 Java 整體並詢問:“識別導致競爭條件的單例模式的每個實例,並重寫它們以使用依賴注入。”* 它將思考 45 秒(系統 2 暫停),然後輸出一個涉及 400 個文件的計劃,而不會產生任何導入路徑的幻覺。
2.3 Gemini 3 Flash:實時代理
Google(發布:2025 年 12 月)
Gemini 3 Flash 改變了人工智能的經濟學。 它是多模式本機和延遲優化。
- “0.2 秒”障礙: Gemini 3 Flash 可以在 200 毫秒內獲取 UI 錯誤的屏幕截圖、OCR 文本、解析日誌並提出修復建議。
- 代理循環: 因為它非常便宜(0.10 美元/100 萬代幣),我們現在將它用於“強力推理”。 我們可以生成 50 個並行代理來同時嘗試 50 個不同的錯誤修復,運行測試,並且只向用戶呈現通過的測試。
3.0 神經系統:模型上下文協議(MCP)
由 Anthropic & Linux Foundation (2025) 標準化
2025 年之前,將人工智能與數據連接意味著編寫脆弱的 API 粘合代碼。 MCP 是“USB-C 智能”。 它為任何模型創建了與任何數據源對話的標準方式。
3.1 MCP 的工作原理(“客戶端-主機-服務器”模型)
- MCP 主機: 運行 AI 的應用程序(例如 Claude Desktop、Cursor、Cline)。
- MCP 服務器: 一個公開數據的輕量級沙盒進程。
- MCP 客戶端: AI 模型本身。
// The AI wants to check a database.// It sends a JSON-RPC message to the Host.{ "jsonrpc": "2.0", "method": "callTool", "params": { "name": "postgres_query", "arguments": { "query": "SELECT * FROM users WHERE status = 'active' LIMIT 5" } }}// The Host validates permissions ("Does this AI have DB access?").// The Host forwards to the Postgres MCP Server.// The Server executes and returns the JSON result.社區中的免費 MCP 服務器數量呈爆炸式增長。 您今天可以在本地運行這些。
| 服務器 | 能力 | 命令 |
|---|---|---|
| @modelcontextprotocol/server-postgres | 只讀 SQL 模式檢查和查詢。 | docker run mcp/postgres |
| @modelcontextprotocol/server-github | 問題跟踪、公關評論、文件搜索。 | npx -y @mcp/server-github |
| @modelcontextprotocol/服務器文件系統 | 安全的本地文件訪問(沙盒)。 | npx -y @mcp/server-filesystem |
| mcp-服務器-k8s | Kubernetes集群檢查和日誌讀取。 | go run mcp-k8s |
| mcp 服務器瀏覽器 | 用於網頁瀏覽/測試的無頭鉻。 | npx -y @mcp/browser |
4.0 代理工作空間:IDE 與 IAD
“集成開發環境”(IDE) 已過時。 我們現在在**“集成代理環境”(IAD)**中工作。
4.1 風帆衝浪:“心流”狀態
Windsurf(Codeium 出品)引入了**“Cascades”的概念。 **
- 深度上下文感知: Windsurf 不僅僅查看打開的文件。 它索引您的變量定義、導入圖和最近的終端輸出。
- 預測導航: 如果您更改後端中的函數簽名,Windsurf 主動會打開調用它的前端文件,甚至在您運行編譯器之前突出顯示中斷。
4.2 Cline:開源協調器
Cline 是開源世界的英雄。 它是一個 VS Code 擴展,可將編輯器變成自主代理。
- “Act”循環: Cline 不只是建議代碼;它還建議代碼。 它運行終端命令。 它可以:
1.
npm test(失敗)
- 閱讀錯誤。
- 編輯文件。
4.
npm test(通過) 5.git commit* MCP 集成: Cline 是最先進的 MCP 客戶端。 您可以鏈接工具:“使用 GitHub MCP 查找問題,使用 Postgres MCP 檢查數據,然後編寫修復程序。”
5.0 本地主權:私有堆棧
對於處理 HIPAA、GDPR 或商業秘密的企業來說,云不是一個選擇。 2025年實現“本地智能”突破。
5.1 DeepSeek-R2:開放重量奇蹟
DeepSeek-R2 是一種開放權重模型,可與 GPT-4o 競爭,但可以在消費類硬件上運行。
- 蒸餾: 它是使用來自較大推理模型的“知識蒸餾”進行訓練的,使其能夠用更少的參數進行深入的“思考”。
- 隱私: 通過在本地 Mac Studio 或 NVIDIA H100 集群上運行 DeepSeek-R2,公司可以獲得“氣隙智能”。 任何數據都不會離開大樓。
5.2 Ollama v2.0:模型操作系統
Ollama 現在是本地 AI 的標準運行時。
- 熱插拔: Ollama v2 保持 VRAM 中加載的“基本”權重,並立即熱插拔“LoRA 適配器”(低階適應)。 你可以在10毫秒內從“編碼專家”切換到“創意作家”。
6.0 情報運作:“審查危機”
2025 年的根本問題不是生成代碼,而是生成代碼。 它正在驗證它。 當初級開發人員(或 AI 代理)可以在 30 秒內生成 5000 行複雜的 React 邏輯時,高級架構師就成為瓶頸。 我們已經進入了**“代碼傾斜”**的時代——代碼看起來正確,通過了單元測試,但引入了微妙的架構漂移。
6.1 Qodo(以前的 Codium):“BS 探測器”
像 Qodo 這樣的工具不再是“擁有就好”——它們是防禦性基礎設施。 他們的主要工作不僅僅是測試,還有幻覺收容。
- “信心懸崖”: 人工智能代理即使在錯誤的情況下也非常自信。 Qodo 擔任公正的審計員。
- 基於屬性的模糊測試: 由於我們不能相信人工智能能夠理解邊緣情況,因此我們使用 Qodo 來“模糊”代理的代碼——向函數拋出數百萬個隨機輸入,以查看邏輯在哪里中斷。
- 現實檢查: 在生產中,我們看到 Qodo 拒絕了約 40% 的“系統 1”AI 代碼,因為疲勞的人類審核員可能會錯過一些微妙的逐一錯誤或安全回歸。
6.2 現實的流程:“痛苦的循環”
在理想化的演示中,代理編寫代碼,然後 CI 合併它。 事實上,管道是“特工揮舞”和“人類疲勞”的戰場。
2025 年工作流程(現實世界):
- 提示(人類): 高級開發人員向 Cline 描述了一項功能。
- “初稿”(特工): 克萊恩撰寫該專題。 看起來很完美。
- “幻影依賴”(CI 失敗): 構建失敗,因為代理導入了不存在的庫或使用了 2024 年已棄用的軟件包版本。
- “燃燒率”循環(代理):
- 代理髮現錯誤。
- 它試圖修復它。 失敗了。
- 它會再次嘗試。 失敗了。
- 結果: 您剛剛在 GPT-5 上花費了 12.00 美元的 API 積分來修復人類可以在 30 秒內修復的循環。
- “審查瓶頸”(人類): PR 最終通過了 CI。 更改了 45 個文件。 高級開發人員打開它。
- 問題: 閱讀代碼比編寫代碼更難。 開發人員掃描了它,錯過了一個微妙的狀態管理錯誤,並出於疲勞批准了它。
- 生產(現實): 該功能有效,但“持久內存”指出代碼庫的複雜性增加了 15%。 技術債務現在正在自動生成。
6.3 隱藏成本:架構熵
2025年的危險不是“天網”;它是大規模的意大利麵條代碼。
- 不一致: Agent A(使用 Claude)編寫了Functional React。 代理 B(使用 GPT-5)編寫 OOP 風格的類組件。 代碼庫變成了風格的精神分裂症。
- 膨脹: 人工智能代理更喜歡“添加代碼”而不是“重構”。 他們很少刪除舊的邏輯;他們把它包裹起來。 在一年多的時間裡,這導致了應用程序的巨大且難以維護的膨脹。
🎯 結論:建築師是“看門人”
這個新時代的“十萬字”不是我們寫的,而是我們寫的。 它們是由我們設計的系統生成的。 而且這些詞大部分都是垃圾。
2025 年底,架構師的角色已從“總建造師”轉變為**“總編輯”。 **我們不再是創造的瓶頸;我們不再是創造的瓶頸;我們是質量的瓶頸。
堆棧的最終真相:
- **人工智能生成數量。 **
- **人類執行質量。 **
- **堆棧的存在是為了管理兩者之間的衝突。 **
你的工作不再是編寫代碼。你的工作是構建“免疫系統”(MCP、Qodo、嚴格約束),防止人工智能將你的干淨架構變成遺留噩夢。
歡迎來到重棧。 戴上頭盔。