
- Published on
GitHub Trending에 오른 whichllm은 로컬 LLM 선택 문제를 모델 순위표가 아니라 현재 하드웨어, VRAM, 양자화, 토큰 속도, 최신 벤치마크 증거를 합친 운영 문제로 다시 정의한다. 한국 개발팀이 로컬 모델을 도입할 때 봐야 할 기준을 정리했다.

GitHub Trending에 오른 whichllm은 로컬 LLM 선택 문제를 모델 순위표가 아니라 현재 하드웨어, VRAM, 양자화, 토큰 속도, 최신 벤치마크 증거를 합친 운영 문제로 다시 정의한다. 한국 개발팀이 로컬 모델을 도입할 때 봐야 할 기준을 정리했다.

Microsoft pg_durable은 Postgres 안에서 장기 실행 SQL 워크플로를 정의하고 체크포인트·재시작·재시도·병렬 실행을 다루려는 확장이다. AI embedding, 문서 ingest, 외부 API 호출, 운영 runbook처럼 상태가 데이터베이스에 붙어 있는 작업에서 왜 이 접근이 중요한지 정리한다.

AWS가 AgentCore Gateway, AgentCore Memory, MCP proxy, model agility 프레임워크를 연달아 공개한 흐름은 단순한 기능 추가가 아니다. 에이전트가 프로덕션 시스템이 되려면 모델보다 먼저 private resource 접근, 메모리 격리, 감사 가능한 tool call, 모델 교체 절차를 설계해야 한다는 신호다.

소버린 AI는 국산 LLM 하나를 만드는 구호가 아니다. 데이터, 컴퓨트, 인재, 모델 운영, 감사 체계를 국내 산업과 규제 환경 안에서 통제할 수 있느냐의 문제다. 왜 지금 소버린 AI가 필요한지, 그리고 개발자와 기업은 어디부터 설계해야 하는지 정리한다.

Google DeepMind의 Decoupled DiLoCo는 LLM 학습을 더 빠르게 만드는 논문이기보다, 프론티어 학습이 더 이상 하나의 완벽히 동기화된 거대 클러스터에만 기대기 어렵다는 선언에 가깝다. 핵심은 대역폭 절감보다 고장 격리와 학습 지속성이다.