
- Published on
Artificial Analysis와 IBM이 공개한 ITBench-AA는 frontier 모델도 Kubernetes 장애 원인 진단에서 50%를 넘기지 못한다는 불편한 현실을 보여준다. 에이전트 자동화의 다음 병목은 더 긴 추론이 아니라, 관측·원인 식별·비용을 함께 통제하는 운영 설계다.
What I learned, What I did, What I thought

Artificial Analysis와 IBM이 공개한 ITBench-AA는 frontier 모델도 Kubernetes 장애 원인 진단에서 50%를 넘기지 못한다는 불편한 현실을 보여준다. 에이전트 자동화의 다음 병목은 더 긴 추론이 아니라, 관측·원인 식별·비용을 함께 통제하는 운영 설계다.

Anthropic의 Claude Cowork와 플러그인 생태계는 에이전트를 더 똑똑한 챗봇이 아니라 역할별 업무 운영 레이어로 포장하려는 움직임이다. 핵심은 모델 성능이 아니라 스킬, 커맨드, 서브에이전트, MCP 커넥터를 파일 기반 패키지로 묶어 팀 단위로 배포하는 구조다.

Stop Slop과 Taste Skill이 GitHub Trending에 함께 오른 신호는 작지 않다. AI 산출물의 다음 병목은 모델 성능이 아니라 반복되는 문체, 뻔한 UI, 팀 표준 부재를 잡아내는 품질 관리 계층이다.

Anthropic의 knowledge-work-plugins 공개는 단순한 플러그인 모음이 아니다. 업무용 AI 에이전트가 개인 프롬프트를 넘어 역할별 스킬, 커넥터, 서브에이전트, 회사 절차를 묶은 팀 운영 패키지로 이동하고 있다는 신호다.

CodeGraph는 또 하나의 코딩 에이전트 플러그인이 아니라, AI 에이전트가 대형 코드베이스를 이해하는 방식을 grep과 파일 열람 중심에서 로컬 코드 지식 그래프 중심으로 옮기려는 시도다. 핵심은 더 똑똑한 모델보다, 모델이 덜 헤매게 만드는 컨텍스트 인프라다.

Anthropic의 공식 Claude Code Plugins 마켓플레이스는 단순한 플러그인 모음이 아니다. skills, subagents, hooks, MCP, LSP를 배포 단위로 묶으면서 코딩 에이전트를 개인 CLI에서 팀 단위 운영 플랫폼으로 끌어올리는 변화다.