
- Published on
AWS가 같은 날 공개한 Quick Flows와 Strands Agents + SageMaker + MLflow 흐름은 에이전트 시장의 초점이 챗봇 UX에서 반복 업무, 모델 선택, 관측, 평가, 배포까지 묶는 워크플로 런타임으로 이동하고 있음을 보여준다.
What I learned, What I did, What I thought

AWS가 같은 날 공개한 Quick Flows와 Strands Agents + SageMaker + MLflow 흐름은 에이전트 시장의 초점이 챗봇 UX에서 반복 업무, 모델 선택, 관측, 평가, 배포까지 묶는 워크플로 런타임으로 이동하고 있음을 보여준다.

Transformer의 성공은 단순히 attention이라는 새 연산 하나 때문이 아니다. 순차 처리 병목을 제거하고, 장거리 의존성을 직접 연결하며, 대규모 병렬 학습과 멀티모달 확장에 맞는 구조적 인터페이스를 제공했기 때문에 RNN·LSTM·CNN 중심의 이전 패러다임을 넘어섰다.

소버린 AI는 국산 LLM 하나를 만드는 구호가 아니다. 데이터, 컴퓨트, 인재, 모델 운영, 감사 체계를 국내 산업과 규제 환경 안에서 통제할 수 있느냐의 문제다. 왜 지금 소버린 AI가 필요한지, 그리고 개발자와 기업은 어디부터 설계해야 하는지 정리한다.

DeepSeek DeepEP는 단순한 CUDA 보조 라이브러리가 아니다. MoE 모델의 토큰 dispatch/combine, NVLink와 RDMA, FP8 저정밀 통신, DeepGEMM 커널을 한 묶음으로 보면 최신 오픈 모델 경쟁의 병목이 점점 모델 가중치보다 런타임 설계로 이동하고 있음을 보여준다.

OpenAI GPT-5.5는 단순한 성능 업데이트라기보다 코딩, 연구, 데이터 분석, 문서 작업을 하나의 장기 실행 업무 단위로 다루려는 전환점이다. 벤치마크보다 중요한 신호는 도구 사용, 검증 루프, 추론 경제성, 안전한 배포 조건이 함께 패키징됐다는 점이다.

Google DeepMind의 Decoupled DiLoCo는 LLM 학습을 더 빠르게 만드는 논문이기보다, 프론티어 학습이 더 이상 하나의 완벽히 동기화된 거대 클러스터에만 기대기 어렵다는 선언에 가깝다. 핵심은 대역폭 절감보다 고장 격리와 학습 지속성이다.