
- Published on
Transformer의 성공은 단순히 attention이라는 새 연산 하나 때문이 아니다. 순차 처리 병목을 제거하고, 장거리 의존성을 직접 연결하며, 대규모 병렬 학습과 멀티모달 확장에 맞는 구조적 인터페이스를 제공했기 때문에 RNN·LSTM·CNN 중심의 이전 패러다임을 넘어섰다.
What I learned, What I did, What I thought

Transformer의 성공은 단순히 attention이라는 새 연산 하나 때문이 아니다. 순차 처리 병목을 제거하고, 장거리 의존성을 직접 연결하며, 대규모 병렬 학습과 멀티모달 확장에 맞는 구조적 인터페이스를 제공했기 때문에 RNN·LSTM·CNN 중심의 이전 패러다임을 넘어섰다.

소버린 AI는 국산 LLM 하나를 만드는 구호가 아니다. 데이터, 컴퓨트, 인재, 모델 운영, 감사 체계를 국내 산업과 규제 환경 안에서 통제할 수 있느냐의 문제다. 왜 지금 소버린 AI가 필요한지, 그리고 개발자와 기업은 어디부터 설계해야 하는지 정리한다.

DeepSeek DeepEP는 단순한 CUDA 보조 라이브러리가 아니다. MoE 모델의 토큰 dispatch/combine, NVLink와 RDMA, FP8 저정밀 통신, DeepGEMM 커널을 한 묶음으로 보면 최신 오픈 모델 경쟁의 병목이 점점 모델 가중치보다 런타임 설계로 이동하고 있음을 보여준다.

OpenAI GPT-5.5는 단순한 성능 업데이트라기보다 코딩, 연구, 데이터 분석, 문서 작업을 하나의 장기 실행 업무 단위로 다루려는 전환점이다. 벤치마크보다 중요한 신호는 도구 사용, 검증 루프, 추론 경제성, 안전한 배포 조건이 함께 패키징됐다는 점이다.

Google DeepMind의 Decoupled DiLoCo는 LLM 학습을 더 빠르게 만드는 논문이기보다, 프론티어 학습이 더 이상 하나의 완벽히 동기화된 거대 클러스터에만 기대기 어렵다는 선언에 가깝다. 핵심은 대역폭 절감보다 고장 격리와 학습 지속성이다.

OpenAI의 workspace agents는 GPTs의 연장이 아니라 ChatGPT를 장기 실행, 공유, 승인, 도구 연결이 가능한 조직용 실행면으로 바꾸는 업데이트다. WebSockets 기반 Responses API, Privacy Filter, clinicians용 패키징까지 함께 보면 방향이 훨씬 선명해진다.