3218 文字
16 分
アーキテクトの AI スタック: 2025 年シンギュラリティ エディション

「副操縦士から共同創設者へ」#

目次#

  1. 2025 年の存在論: システム 2 と「チャット」の死
  2. フロンティア エンジン: 技術的な詳細
  • GPT-5.1 と永続メモリ層 (PML)
  • クロード 4.5 オーパス: 深い思想家
  • Gemini 3 Flash: リアルタイム エージェント
  1. 神経系: モデル コンテキスト プロトコル (MCP)
  • アーキテクチャとセキュリティ
  • オープンソースサーバーエコシステム
  1. エージェント ワークスペース: IDE と IAD
  • ウィンドサーフィンとカスケード
  • カーソル&コンポーザ V2
  • クライン: オープン オーケストレーター
  1. ローカル主権: プライベート スタック
  • DeepSeek-R2 と蒸留 ※「モデルOS」:Ollama v2
  1. オペレーショナルインテリジェンス: テストと CI/CD
  • 行動検証 (Qodo)
  • 「エージェントインザループ」パイプライン

1.0 2025 年のオントロジー: システム 2 と「チャット」の死#

2024 年のインターフェース、「チャットボット」は終わりました。 それはスキューモーフィックな橋であり、AI を非常に賢い人のように扱い、テキストメッセージを送らなければならない過渡期でした。

2025 年後半には、インターフェイスは Context になります。 私たちはもはや AI と「チャット」しません。 私たちは、AI がオペレーティング システムの遍在するステートフル レイヤーであるワークスペースに「生息」しています。 今年の決定的な変化は、確率的トークン生成 (システム 1) から 推論優先計画 (システム 2) への移行です。

1.1 「即戦力エンジニア」の崩壊#

「プロンプト エンジニアリング」は 「コンテキスト エンジニアリング」 に置き換えられました。モデルを騙して賢くする必要はもうありません。 モデル (GPT-5、Opus 4.5) は、生のロジックに関しては平均的な若手エンジニアよりも賢くなっています。 アーキテクトの仕事は厳密に リソース管理 になりました。

  • このタスクをどのモデルにルーティングすればよいですか?
  • どれくらいのコンテキストが必要ですか?
  • 権限の境界とは何ですか?

2.0 フロンティア エンジン: 技術的な詳細#

「ビッグ 3」は、特定の進化的ニッチに分岐しました。 「どれが一番いいのか?」ということはもうありません。 しかし、「特殊なワークロードに適しているのはどれでしょうか?」

2.1 GPT-5.1 と永続メモリ層 (PML)#

OpenAI (リリース: 2025 年 8 月 / プレビュー: 2025 年 12 月)

GPT-5 は「一般知能」のピークを表します。 ただし、5.1 プレビューの特徴的な機能は PML (Persistent Memory Layer) です。

2.1.1 PML の技術アーキテクチャ#

PML は RAG (Retrieval Augmented Generation) ではありません。 RAG は検索エンジンです。 文書が見つかります。 PML は ステート マシン です。

  • ベクトルとグラフ: 従来の RAG はベクトル埋め込み (ファジー マッチング) を使用します。 PML は ナレッジ グラフ を使用します。 会話内で変数を定義すると、GPT-5.1 はそれをプロジェクト固有のグラフ内のノードとしてマップします。
  • 「書き込み」操作: ユーザーが制約 (例: 「すべての日付は UTC でなければならない」) を設定すると、モデルは次の操作を実行します。MEM_WRITE手術。 これはアトミックかつ永続的です。
  • 「施行」レイヤー: 今後のコードを生成する前に、モデルはグラフを走査します。 生成されたトークンが制約ノードに違反する場合 (例:new Date()の代わりにmoment.utc())、ロジットはトークンが発行される「前」に抑制されます。
TIP

{title=“Architectural Impact”} これにより、「ゼロショット オンボーディング」 が可能になります。新しいチャット セッションはゼロから開始されません。 それはプロジェクトのナレッジ グラフの正確な状態から始まります。

2.2 クロード 4.5 作品: 深い思想家#

Anthropic (リリース: 2025 年 11 月)

GPT-5 が CEO であれば、Claude 4.5 Opus は主任研究員です。 それは遅く、高価ですが、まったく素晴らしいです。

2.2.1 200 万トークン「パーフェクト リコール」#

Claude 4.5 は、これまで不可能だった 大規模なリニア アテンション を実現します。 99.93% の Needle-in-a-Haystack リコールを備えた 2,000,000 トークン コンテキスト ウィンドウ (約 15,000 ファイルのコード) を保持できます。

  • ユースケース: 「大規模なリファクタリング」 Claude 4.5 にレガシー Java モノリス全体を与えて、「競合状態を引き起こすシングルトン パターンのすべてのインスタンスを特定し、依存関係の注入を使用するように書き換えてください。」* と尋ねることができます。 45 秒間考えて (システム 2 は一時停止します)、単一のインポート パスを幻覚させることなく、400 個のファイルに触れる計画を出力します。

2.3 Gemini 3 Flash: リアルタイム エージェント#

Google (リリース: 2025 年 12 月)

Gemini 3 Flash は AI の経済学を変えました。 マルチモーダル ネイティブ および 遅延最適化 です。

  • 「0.2 秒」のバリア: Gemini 3 Flash は、UI エラーのスクリーンショットを取り込み、テキストを OCR し、ログを解析し、200 ミリ秒以内に修正を提案できます。
  • Agentic Loops: 非常に安い (0.10 ドル / 100 万トークン) ため、現在は「総当り推論」に使用しています。 50 の並列エージェントを生成して、50 の異なるバグ修正を同時に試し、テストを実行し、合格したものだけをユーザーに表示できます。

3.0 神経系: モデル コンテキスト プロトコル (MCP)#

Anthropic & Linux Foundation によって標準化 (2025)

2025 年以前は、AI をデータに接続するには、脆弱な API グルー コードを作成する必要がありました。 MCP は「インテリジェンスのための USB-C」です。 これは、任意の モデルが 任意の データ ソースと通信するための標準的な方法を作成します。

3.1 MCP の仕組み (「クライアント-ホスト-サーバー」モデル)#

  1. MCP ホスト: AI を実行しているアプリケーション (Claude Desktop、Cursor、Cline など)。
  2. MCP サーバー: データを公開する軽量のサンドボックス プロセス。
  3. MCP クライアント: AI モデル自体。
Example: The Anatomy of an MCP Request
// The AI wants to check a database.
// It sends a JSON-RPC message to the Host.
{
"jsonrpc": "2.0",
"method": "callTool",
"params": {
"name": "postgres_query",
"arguments": {
"query": "SELECT * FROM users WHERE status = 'active' LIMIT 5"
}
}
}
// The Host validates permissions ("Does this AI have DB access?").
// The Host forwards to the Postgres MCP Server.
// The Server executes and returns the JSON result.

コミュニティには無料の MCP サーバーが爆発的に増加しました。 これらは今すぐローカルで実行できます。

サーバー能力コマンド
@modelcontextprotocol/server-postgres読み取り専用 SQL スキーマの検査とクエリ。docker run mcp/postgres
@modelcontextprotocol/server-github問題の追跡、PR レビュー、ファイル検索。npx -y @mcp/server-github
@モデルコンテキストプロトコル/サーバーファイルシステム安全なローカル ファイル アクセス (サンドボックス)。npx -y @mcp/server-filesystem
mcp-server-k8sKubernetes クラスターの検査とログの読み取り。go run mcp-k8s
mcp-サーバーブラウザWeb ブラウジング/テスト用のヘッドレス クロム。npx -y @mcp/browser

4.0 エージェント ワークスペース: IDE と IAD#

「統合開発環境」(IDE) は廃止されました。 私たちは現在、「統合エージェント環境」(IAD) で作業しています。

4.1 ウィンドサーフィン: 「フロー」状態#

Windsurf (Codeium による) は 「カスケード」 の概念を導入しました。

  • 深いコンテキスト認識: Windsurf は、開いているファイルを調べるだけではありません。 変数定義、インポート グラフ、および最近のターミナル出力にインデックスを付けます。
  • 予測ナビゲーション: バックエンドで関数シグネチャを変更すると、Windsurf はそれを呼び出すフロントエンド ファイルを積極的に開き、コンパイラを実行する前にブレークを強調表示します。

4.2 Cline: オープンソース オーケストレーター#

クラインはオープンソース世界のヒーローです。 これは、エディタを Autonomous Agent に変える VS Code 拡張機能です。

  • 「Act」ループ: Cline はコードを提案するだけではありません。 端末コマンドを実行します。 次のことが可能です。 1.npm test(失敗)
  1. エラーを読みます。
  2. ファイルを編集します。 4.npm test(パス) 5.git commit* MCP 統合: Cline は最も先進的な MCP クライアントです。 GitHub MCP を使用して問題を見つけ、Postgres MCP を使用してデータを確認し、修正を作成します。」 というツールを連鎖させることができます。

5.0 ローカル主権: プライベート スタック#

HIPAA、GDPR、または企業秘密を扱う企業にとって、クラウドは選択肢ではありません。 2025 年は「ローカル インテリジェンス」の躍進をもたらしました。

5.1 DeepSeek-R2: 無差別重量の奇跡#

DeepSeek-R2 は、GPT-4o に匹敵するオープンウェイト モデルですが、民生用ハードウェアで動作します。

  • 蒸留: 大規模な推論モデルからの「知識蒸留」を使用してトレーニングされ、より少ないパラメーターで深く「考える」ことができます。
  • プライバシー: ローカルの Mac Studio または NVIDIA H100 クラスターで DeepSeek-R2 を実行することにより、企業は「エアギャップ インテリジェンス」を獲得します。 データが建物の外に出ることはありません。

5.2 Ollama v2.0: モデル OS#

Ollama は現在、ローカル AI の標準ランタイムです。

  • ホットスワップ: Ollama v2 は、「基本」ウェイトを VRAM にロードしたままにし、「LoRA アダプター」 (低ランクの適応) を即座にホットスワップします。 「コーディングエキスパート」から「クリエイティブライター」へは10ミリ秒で切り替えることができます。

6.0 インテリジェンスの運用化: 「レビューの危機」#

2025 年の根本的な問題はコードを生成しないことです。 それを検証しています。 ジュニア開発者 (または AI エージェント) が 30 秒で 5,000 行の複雑な React ロジックを生成できる場合、シニア アーキテクトがボトルネックになります。 **「コード スロップ」**の時代に入りました。コードは正しく見え、単体テストには合格しますが、アーキテクチャ上の微妙なドリフトが生じます。

6.1 Qodo (旧 Codium): 「BS 検出器」#

Qodo のようなツールはもはや「あれば便利」なものではなく、防御インフラストラクチャです。 彼らの主な仕事はテストだけではなく、幻覚の封じ込めです。

  • 「自信の崖」: AI エージェントは、たとえ間違っている場合でも自信を持っていることで有名です。 Qodo は公平な監査役として機能します。
  • プロパティベースのファジング: AI がエッジ ケースを理解することを信頼できないため、Qodo を使用してエージェントのコードを「ファジング」し、関数に何百万ものランダムな入力をスローして、ロジックがどこで壊れているかを確認します。
  • 現実性チェック: 運用環境では、疲れた人間のレビュー担当者が見逃してしまうような微妙なオフバイワン エラーやセキュリティ回帰のために、Qodo が「システム 1」AI コードの最大 40% を拒否していることがわかります。

6.2 現実的なパイプライン: 「痛みのループ」#

理想的なデモでは、エージェントがコードを作成し、CI がコードをマージします。 実際、パイプラインは「エージェントのたたき合い」と「人間の疲労」の戦場です。

2025 年のワークフロー (現実世界):

  1. プロンプト (人間): 上級開発者がクラインに機能を説明します。
  2. 「最初の草案」 (エージェント): クラインがこの機能を書きます。 見た目は完璧です。
  3. 「ファントム依存関係」 (CI 失敗): エージェントが存在しないライブラリをインポートしたか、2024 年に非推奨となるパッケージのバージョンを使用したため、ビルドが失敗します。
  4. 「燃焼率」ループ (エージェント):
  • エージェントにはエラーが表示されます。
  • それを修正しようとします。 失敗します。
  • 再試行します。 失敗します。
  • 結果: 人間が 30 秒で修正できるループに対して、GPT-5 の API クレジットとして $12.00 を費やしました。
  1. 「レビューのボトルネック」(人間): PR は最終的に CI を通過します。 45個のファイルが変更されました。 上級開発者がそれを開きます。
  • 問題: コードを読むことは書くことよりも難しいです。 開発者はそれをスキャンし、微妙な状態管理のバグを見逃し、疲れからそれを承認します。
  1. 本番環境 (現実): この機能は動作しますが、「永続メモリ」によると、コードベースの複雑さが 15% 増加しています。 技術的負債は現在、自動的に生成されています。

6.3 隠れたコスト: アーキテクチャのエントロピー#

2025年の危険は「スカイネット」ではない。 それは 大規模なスパゲッティ コードです。

  • 矛盾: エージェント A (クロードを使用) は Functional React を作成します。 エージェント B (GPT-5 を使用) は、OOP スタイルのクラス コンポーネントを作成します。 コードベースはスタイルの統合失調症になります。
  • 肥大化: AI エージェントは「リファクタリング」よりも「コードの追加」を好みます。 古いロジックが削除されることはほとんどありません。 彼らはそれを包みます。 これにより、1 年以上にわたってアプリケーションが大幅に肥大化して保守不能になります。

🎯 結論: 「管理人」としての建築家#

この新しい時代の「10万語」は私たちが書いたものではありません。 それらは私たちが設計したシステムによって生成されます。 そして、それらの言葉のほとんどはゴミです。

2025 年後半のアーキテクトの役割は、「マスター ビルダー」から 「マスター エディター」 に移行しました。私たちはもはや 作成 のボトルネックではありません。 私たちは品質のボトルネックになっています。

スタックの最終的な真実:

  1. AI は数量を生成します。
  2. 人間が品質を強制します。
  3. スタックは、この 2 つの間の競合を管理するために存在します。

あなたの仕事はコードを書くことではなくなります。 あなたの仕事は、AI がクリーンなアーキテクチャを従来の悪夢に変えてしまうことを防ぐ「免疫システム」 (MCP、Qodo、厳格な制約) を構築することです。

ヘビースタックへようこそ。 ヘルメットはかぶったままにしておいてください。

アーキテクトの AI スタック: 2025 年シンギュラリティ エディション
https://banije.vercel.app/ja/posts/ai_tools/
作者
ibra-kdbra
公開日
2025-12-31
ライセンス
CC BY-NC-SA 4.0