3879 단어
19 분
건축가의 AI 스택: 2025 Singularity Edition

“부조종사에서 공동 창업자로”#

목차#

  1. 2025년의 온톨로지: 시스템 2 및 “채팅”의 죽음
  2. 프론티어 엔진: 기술 심층 분석
  • GPT-5.1 및 영구 메모리 계층(PML)
  • 클로드 4.5 작품: 깊은 사상가
  • Gemini 3 플래시: 실시간 에이전트
  1. 신경계: 모델 컨텍스트 프로토콜(MCP)
  • 아키텍처 및 보안
  • 오픈 소스 서버 생태계
  1. 에이전트 작업 공간: IDE와 IAD 비교
  • 윈드서핑 & 캐스케이드
  • 커서 및 작곡가 V2
  • 클라인: 오픈 오케스트레이터
  1. 지역 주권: 민간 스택
  • DeepSeek-R2 및 증류
  • “모델 OS”: Ollama v2
  1. 지능 운영: 테스트 및 CI/CD
  • 행동 검증(Qodo)
  • “Agent-in-the-Loop” 파이프라인

1.0 2025년의 온톨로지: 시스템 2 & “채팅”의 죽음#

2024년의 인터페이스인 “Chatbot”은 죽었습니다. 그것은 우리가 AI를 매우 똑똑한 사람처럼 대하고 문자 메시지를 보내야 하는 전환 단계인 스큐어모픽 브리지였습니다.

2025년 후반에는 인터페이스가 Context입니다. 우리는 더 이상 AI와 “채팅”하지 않습니다. 우리는 AI가 운영 체제의 편재하고 상태를 저장하는 계층인 작업 공간에 거주합니다. 올해를 정의하는 변화는 확률적 토큰 생성(시스템 1)에서 추론 우선 계획(시스템 2)으로의 전환입니다.

1.1 ‘신속엔지니어’의 몰락#

“Prompt Engineering”은 **“Context Engineering”**으로 대체되었습니다. 더 이상 모델을 스마트하게 속이는 것이 아닙니다. 모델(GPT-5, Opus 4.5)은 이제 원시 로직의 일반 주니어 엔지니어보다 더 똑똑합니다. 이제 Architect의 작업은 엄격하게 리소스 관리입니다.

  • 이 작업을 어떤 모델에 전달해야 합니까?
  • 얼마나 많은 맥락이 필요합니까?
  • 권한 경계는 무엇입니까?

2.0 프론티어 엔진: 기술 심층 분석#

“빅 3”는 특정한 진화적 틈새 시장으로 갈라졌습니다. 우리는 더 이상 “어느 것이 가장 좋은가?”라고 묻지 않습니다. 하지만 “특화된 작업량에 맞는 것은 무엇입니까?“

2.1 GPT-5.1 및 영구 메모리 계층(PML)#

OpenAI(출시: 2025년 8월 / 미리보기: 2025년 12월)

GPT-5는 “일반 정보”의 정점을 나타냅니다. 하지만 5.1 미리보기의 정의 기능은 **PML(영구 메모리 계층)**입니다.

2.1.1 PML의 기술 아키텍처

PML은 RAG(검색 증강 생성)가 아닙니다. RAG는 ​​검색 엔진입니다. 문서를 찾습니다. PML은 상태 머신입니다.

  • 벡터 대 그래프: 기존 RAG는 벡터 임베딩(퍼지 매칭)을 사용합니다. PML은 지식 그래프를 사용합니다. 대화에서 변수를 정의하면 GPT-5.1은 이를 프로젝트별 그래프의 노드로 매핑합니다.
  • “쓰기” 작업: 사용자가 제약 조건(예: “모든 날짜는 UTC여야 합니다”)을 설정하면 모델은 다음을 수행합니다.MEM_WRITE작업. 이는 원자적이고 지속적입니다.
  • “적용” 계층: 향후 코드를 생성하기 전에 모델은 그래프를 순회합니다. 생성된 토큰이 제약 조건 노드를 위반하는 경우(예: 생성new Date()대신에moment.utc()), 토큰이 방출되기 전에 로짓이 억제됩니다.
TIP

{title=“Architectural Impact”} 이를 통해 “제로샷 온보딩”이 가능합니다. 새 채팅 세션은 0에서 시작되지 않습니다. 프로젝트 지식 그래프의 정확한 상태부터 시작됩니다.

2.2 클로드 4.5 Opus: 깊은 사상가#

Anthropic (출시: 2025년 11월)

GPT-5가 CEO라면 Claude 4.5 Opus가 수석 연구원입니다. 느리고, 비용이 많이 들고, 정말 훌륭합니다.

2.2.1 2백만 토큰 “완벽한 리콜”#

Claude 4.5는 이전에는 불가능했던 규모에 따른 선형 주의를 달성합니다. 99.93% Needle-in-a-Haystack 리콜로 2,000,000개의 토큰 컨텍스트 창(약 15,000개의 코드 파일)을 보유할 수 있습니다.

  • 사용 사례: “대형 리팩터링” Claude 4.5에 전체 레거시 Java 모놀리스를 제공하고 다음과 같이 질문할 수 있습니다. “경합 조건을 유발하는 싱글턴 패턴의 모든 인스턴스를 식별하고 종속성 주입을 사용하도록 다시 작성하세요.” 45초 동안 생각한 다음(시스템 2 일시 중지) 단일 가져오기 경로를 망각하지 않고 400개의 파일을 다루는 계획을 출력합니다.

2.3 Gemini 3 플래시: 실시간 에이전트#

Google(출시: 2025년 12월)

Gemini 3 Flash는 AI의 경제학을 변화시켰습니다. 다중 모드 네이티브지연 시간 최적화입니다.

  • “0.2초” 장벽: Gemini 3 Flash는 UI 오류의 스크린샷을 수집하고, 텍스트를 OCR하고, 로그를 구문 분석하고, 200밀리초 이내에 수정 사항을 제안할 수 있습니다.
  • 에이전트 루프: 매우 저렴하기 때문에($0.10/1M 토큰) 이제 “무차별 추론”에 사용합니다. 50개의 병렬 에이전트를 생성하여 50개의 서로 다른 버그 수정을 동시에 시도하고, 테스트를 실행하고, 통과한 버그 수정만 사용자에게 제공할 수 있습니다.

3.0 신경계: 모델 컨텍스트 프로토콜(MCP)#

Anthropic & Linux Foundation에 의해 표준화됨(2025)

2025년 이전에는 AI를 데이터에 연결한다는 것은 취약한 API 글루 코드를 작성하는 것을 의미했습니다. MCP는 “지능형 USB-C”입니다. 모든 모델이 모든 데이터 소스와 통신할 수 있는 표준 방법을 만듭니다.

3.1 MCP 작동 방식(“클라이언트-호스트-서버” 모델)#

  1. MCP 호스트: AI를 실행하는 애플리케이션(예: Claude Desktop, Cursor, Cline).
  2. MCP 서버: 데이터를 노출하는 경량의 샌드박스 프로세스입니다.
  3. MCP 클라이언트: AI 모델 자체입니다.
Example: The Anatomy of an MCP Request
// The AI wants to check a database.
// It sends a JSON-RPC message to the Host.
{
"jsonrpc": "2.0",
"method": "callTool",
"params": {
"name": "postgres_query",
"arguments": {
"query": "SELECT * FROM users WHERE status = 'active' LIMIT 5"
}
}
}
// The Host validates permissions ("Does this AI have DB access?").
// The Host forwards to the Postgres MCP Server.
// The Server executes and returns the JSON result.

커뮤니티는 무료 MCP 서버로 폭발했습니다. 오늘부터 로컬로 실행할 수 있습니다.

서버능력명령
@modelcontextprotocol/server-postgres읽기 전용 SQL 스키마 검사 및 쿼리.docker run mcp/postgres
@modelcontextprotocol/server-github이슈 추적, PR 검토, 파일 검색.npx -y @mcp/server-github
@modelcontextprotocol/서버 파일 시스템안전한 로컬 파일 액세스(샌드박스).npx -y @mcp/server-filesystem
mcp-서버-k8sKubernetes 클러스터 검사 및 로그 읽기.go run mcp-k8s
mcp-서버-브라우저웹 브라우징/테스트를 위한 헤드리스 크롬.npx -y @mcp/browser

4.0 에이전트 작업 공간: IDE와 IAD#

“통합 개발 환경”(IDE)은 더 이상 사용되지 않습니다. 현재 우리는 **“통합 에이전트 환경”(IAD)**에서 작업하고 있습니다.

4.1 윈드서핑: “흐름” 상태#

Windsurf(Codeium 제공)는 **“Cascades”**라는 개념을 도입했습니다.

  • 심층적인 상황 인식: Windsurf는 열려 있는 파일만 보는 것이 아닙니다. 변수 정의, 가져오기 그래프 및 최근 터미널 출력을 색인화합니다.
  • 예측 탐색: 백엔드에서 함수 서명을 변경하면 Windsurf는 이를 호출하는 프런트엔드 파일을 사전적으로 열어 컴파일러를 실행하기도 전에 중단 부분을 강조 표시합니다.

4.2 Cline: 오픈 소스 조정자#

Cline은 오픈 소스 세계의 영웅입니다. 편집기를 자율 에이전트로 바꾸는 VS Code 확장입니다.

  • “Act” 루프: Cline은 단지 코드를 제안하는 것이 아닙니다. 터미널 명령을 실행합니다. 다음을 수행할 수 있습니다. 1.npm test(실패)
  1. 오류를 읽으십시오.
  2. 파일을 편집합니다. 4.npm test(합격) 5.git commit* MCP 통합: Cline은 가장 발전된 MCP 클라이언트입니다. 도구를 연결할 수 있습니다. GitHub MCP를 사용하여 문제를 찾고, Postgres MCP를 사용하여 데이터를 확인한 다음 수정 사항을 작성합니다.”

5.0 지역 주권: 민간 스택#

HIPAA, GDPR 또는 영업 비밀을 다루는 기업의 경우 클라우드는 선택 사항이 아닙니다. 2025년은 ‘로컬 인텔리전스’라는 획기적인 발전을 이루었습니다.

5.1 DeepSeek-R2: 개방형 무게의 기적#

DeepSeek-R2는 GPT-4o와 경쟁하지만 소비자 하드웨어에서 실행되는 개방형 가중치 모델입니다.

  • 증류: 대규모 추론 모델의 “지식 증류”를 사용하여 훈련되었으므로 더 적은 수의 매개변수로 깊이 “생각”할 수 있습니다.
  • 개인 정보 보호: 로컬 Mac Studio 또는 NVIDIA H100 클러스터에서 DeepSeek-R2를 실행함으로써 기업은 “Air-Gapped Intelligence”를 얻을 수 있습니다. 어떤 데이터도 건물 밖으로 나가지 않습니다.

5.2 Ollama v2.0: 모델 OS#

Ollama는 이제 로컬 AI의 표준 런타임입니다.

  • 핫 스와핑: Ollama v2는 VRAM에 로드된 “기본” 가중치를 유지하고 “LoRA 어댑터”(낮은 순위 적응)를 즉시 핫 스왑합니다. 10ms 안에 “코딩 전문가”에서 “창의적인 작가”로 전환할 수 있습니다.

6.0 인텔리전스 운영: “검토 위기”#

2025년의 근본적인 문제는 코드를 생성하는 것이 아닙니다. 확인 중입니다. 주니어 개발자(또는 AI 에이전트)가 30초 안에 5,000줄의 복잡한 React 로직을 생성할 수 있으면 수석 아키텍트가 병목 현상이 발생합니다. 우리는 “코드 슬롭(Code Slop)” 시대에 들어섰습니다. 코드는 정확해 보이고 단위 테스트를 통과하지만 미묘한 아키텍처 드리프트가 발생합니다.

6.1 Qodo(이전 Codium): “BS 탐지기”#

Qodo와 같은 도구는 더 이상 “있으면 좋은” 도구가 아니라 방어 인프라입니다. 그들의 주요 임무는 단순한 테스트가 아니라 환각 억제입니다.

  • “신뢰의 절벽”: AI 에이전트는 자신이 틀렸을 때에도 자신감을 갖는 것으로 악명 높습니다. Qodo는 공정한 감사인 역할을 합니다.
  • 속성 기반 퍼징: 우리는 AI가 극단적인 사례를 이해한다고 믿을 수 없기 때문에 Qodo를 사용하여 에이전트의 코드를 “퍼징”하여 함수에 수백만 개의 무작위 입력을 던져 논리가 중단되는 위치를 확인합니다.
  • 현실 확인: 프로덕션에서 Qodo는 피곤한 인간 검토자가 놓쳤을 미묘한 오류 또는 보안 회귀로 인해 “시스템 1” AI 코드의 최대 40%를 거부하는 것을 확인했습니다.

6.2 현실적인 파이프라인: “고통의 고리”#

이상적인 데모에서는 에이전트가 코드를 작성하고 CI가 이를 병합합니다. 현실적으로 파이프라인은 ‘에이전트 플라일링’과 ‘인간 피로’의 전쟁터다.

2025년 워크플로(실제):

  1. 프롬프트(인간): 수석 개발자가 Cline에게 기능을 설명합니다.
  2. “첫 번째 초안”(에이전트): Cline이 기능을 작성합니다. 완벽해 보이네요.
  3. “유령 종속성”(CI 실패): 에이전트가 존재하지 않는 라이브러리를 가져오거나 2024년에 더 이상 사용되지 않는 패키지 버전을 사용했기 때문에 빌드가 실패합니다.
  4. “소각률” 루프(에이전트):
  • 에이전트에 오류가 표시됩니다.
  • 고치려고 노력합니다. 실패합니다.
  • 다시 시도합니다. 실패합니다.
  • 결과: 사람이 30초 안에 고칠 수 있는 루프에 대해 GPT-5에 API 크레딧으로 $12.00를 지출했습니다.
  1. “검토 병목 현상”(인간): PR이 마침내 CI를 통과합니다. 45개의 파일이 변경되었습니다. 수석 개발자가 이를 엽니다.
  • 문제: 코드를 읽는 것이 작성하는 것보다 어렵습니다. Dev는 그것을 스캔하고 미묘한 상태 관리 버그를 놓치고 피로에 승인합니다.
  1. 프로덕션(현실): 기능은 작동하지만 “영구 메모리”에서는 코드베이스의 복잡성이 15% 증가했다고 기록합니다. 이제 기술 부채가 자동으로 생성됩니다.

6.3 숨겨진 비용: 건축적 엔트로피#

2025년의 위험은 ‘스카이넷’이 아니다. 규모별 스파게티 코드입니다.

  • 불일치: 에이전트 A(Claude 사용)가 Functional React를 작성합니다. 에이전트 B(GPT-5 사용)는 OOP 스타일 클래스 구성 요소를 작성합니다. 코드베이스는 스타일의 정신분열증이 됩니다.
  • 부풀림: AI 에이전트는 ‘리팩토링’보다 ‘코드 추가’를 선호합니다. 오래된 로직을 삭제하는 경우는 거의 없습니다. 그들은 그것을 포장합니다. 1년이 지나면서 이는 유지 관리가 불가능한 막대한 규모의 애플리케이션 팽창으로 이어집니다.

🎯 결론: “The Janitor”로서의 건축가#

이 새로운 시대의 ‘10만 단어’는 우리가 쓴 것이 아닙니다. 그것들은 우리가 설계한 시스템에 의해 생성됩니다. 그리고 그 말의 대부분은 쓰레기입니다.

2025년 후반에 건축가의 역할은 “마스터 빌더”에서 **“마스터 편집자”**로 바뀌었습니다. 우리는 더 이상 창조의 병목 현상이 아닙니다. 우리는 품질에 병목 현상을 일으키고 있습니다.

스택의 마지막 진실:

  1. AI가 수량을 생성합니다.
  2. 인간은 품질을 강화합니다.
  3. 스택은 둘 사이의 충돌을 관리하기 위해 존재합니다.

당신의 임무는 더 이상 코드를 작성하는 것이 아닙니다. 당신의 임무는 AI가 깨끗한 아키텍처를 레거시 악몽으로 바꾸는 것을 방지하는 “면역 시스템”(MCP, Qodo, 엄격한 제약 조건)을 구축하는 것입니다.

헤비 스택에 오신 것을 환영합니다. 헬멧을 계속 착용하세요.

건축가의 AI 스택: 2025 Singularity Edition
https://banije.vercel.app/ko/posts/ai_tools/
저자
ibra-kdbra
게시일
2025-12-31
라이선스
CC BY-NC-SA 4.0