Kronos: 금융 캔들 데이터를 LLM처럼 다루는 오픈소스 파운데이션 모델

Kronos · 금융 시계열 파운데이션 모델 · Quant AI

Kronos가 흥미로운 이유는 "AI가 주가를 맞힌다"는 식의 얕은 이야기 때문이 아니다. 더 중요한 변화는 금융 시계열을 더 이상 단발 예측 함수로만 보지 않고, 토큰화·사전학습·제로샷 평가·파인튜닝·백테스트까지 이어지는 모델 운영 단위로 다루기 시작했다는 점이다.

Kronos cover

2026년 6월 15일 GitHub Trending에서 shiyu-coder/Kronos가 다시 눈에 띈다. 저장소 설명은 간단하다. Kronos: A Foundation Model for the Language of Financial Markets. README와 arXiv 초록을 보면 이 표현은 마케팅 문구만은 아니다. Kronos는 금융 캔들스틱, 즉 K-line/OHLCV 데이터를 위한 전용 토크나이저를 만들고, 이를 이산 토큰 시퀀스로 바꾼 뒤, 오토리그레시브 Transformer로 사전학습한다.

핵심 수치도 꽤 선명하다. 논문 초록은 45개 글로벌 거래소의 120억 개 이상 K-line 레코드로 사전학습했다고 설명한다. GitHub README는 공개 모델군으로 Kronos-mini, Kronos-small, Kronos-base를 Hugging Face Hub에 올려두었고, 파인튜닝과 Qlib 기반 백테스트 예제까지 제공한다고 적고 있다.

다만 결론부터 말하면, 이걸 곧바로 "오픈소스 자동매매 엔진"으로 읽으면 위험하다. Kronos의 진짜 가치는 매매 신호 그 자체보다 금융 데이터 전용 사전학습 모델을 실험 가능한 리서치 컴포넌트로 공개했다는 점에 있다.

금융 시계열은 왜 그냥 LLM에 넣기 어렵나

일반 LLM은 텍스트 토큰을 다룬다. 금융 캔들 데이터는 다르다. 하나의 시점에는 open, high, low, close, volume, amount 같은 다차원 숫자 신호가 있고, 이 값들은 노이즈가 크고, 시장 구조·거래 시간·자산군·유동성·이상치에 민감하다.

Kronos의 논문 초록은 기존 Time Series Foundation Model이 금융 캔들 데이터에서 제한적이었고, 때로는 비사전학습 아키텍처보다도 못했다고 지적한다. 특히 금융 쪽에서는 단순 가격 예측만이 아니라 변동성 예측, 합성 데이터 생성 같은 다운스트림 작업도 중요한데, 기존 모델들이 이 부분을 충분히 다루지 못했다는 문제의식이다.

그래서 Kronos는 "숫자 배열을 그대로 Transformer에 넣자"가 아니라 두 단계로 간다.

OHLCV 같은 연속형 시장 정보를 계층적 이산 토큰으로 양자화한다.
이 토큰 시퀀스 위에서 오토리그레시브 Transformer를 사전학습한다.

Kronos architecture

이 설계의 의미는 크다. 텍스트 LLM에서 토크나이저가 언어 세계를 모델이 먹을 수 있는 단위로 바꾸듯, Kronos의 토크나이저는 금융 캔들 세계를 모델이 학습할 수 있는 기호 체계로 바꾼다. 즉 "금융 시장의 언어"라는 표현은 비유이면서도 꽤 직접적인 아키텍처 선택이다.

공개 모델군이 작다는 점도 오히려 실무적으로 중요하다

README의 모델 표를 보면 공개된 모델은 크기별로 나뉜다.

모델	컨텍스트 길이	파라미터	공개 여부
Kronos-mini	2048	4.1M	공개
Kronos-small	512	24.7M	공개
Kronos-base	512	102.3M	공개
Kronos-large	512	499.2M	비공개

요즘 LLM 문법에 익숙한 사람에게 102.3M 파라미터는 작아 보일 수 있다. 하지만 금융 시계열 실험에서는 이 점이 오히려 장점이다. 연구팀이나 개인 개발자가 로컬 환경에서 모델을 받아보고, 데이터 전처리·파인튜닝·백테스트 루프를 빠르게 돌려볼 수 있기 때문이다.

Kronos README의 예제도 이런 방향이다. KronosTokenizer와 KronosPredictor를 Hugging Face에서 불러오고, pandas DataFrame에 open, high, low, close 컬럼을 맞춘 뒤, 미래 timestamp 구간을 넘겨 예측 DataFrame을 받는다. 배치 예측도 제공한다. 즉 이 저장소는 논문 코드 덤프라기보다, 최소한 "써볼 수 있는 형태"로 내려오려는 의도가 있다.

물론 이 지점에서 과장이 섞이면 안 된다. 모델이 작고 공개되어 있다는 것과 실거래에 바로 쓸 수 있다는 것은 완전히 다른 말이다. 금융 모델은 예측 정확도보다도 데이터 누수, 체결 비용, 슬리피지, 리밸런싱 정책, 포트폴리오 제약, 리스크 중립화가 결과를 더 크게 흔든다.

논문 수치는 흥미롭지만, 운영자는 평가 프레임을 먼저 봐야 한다

arXiv 초록 기준으로 Kronos는 여러 금융 작업에서 제로샷 성능을 강조한다. 대표적으로 가격 시계열 예측에서 RankIC가 기존 선도 TSFM 대비 93%, 최고의 비사전학습 베이스라인 대비 87% 개선됐다고 설명한다. 변동성 예측에서는 MAE가 9% 낮고, 합성 K-line 시퀀스 생성에서는 generative fidelity가 22% 개선됐다고 적는다.

이 수치들은 충분히 흥미롭다. 하지만 개발자나 퀀트 운영자 입장에서는 질문을 바꿔야 한다.

이 RankIC 개선이 어떤 시장·기간·유니버스에서 나온 것인가?
내 데이터 주기와 자산군에서도 같은 토크나이저가 의미를 유지하는가?
제로샷 성능과 파인튜닝 후 성능 중 어느 쪽이 실제 워크플로에 맞는가?
예측값을 신호로 바꾼 뒤, 포트폴리오와 리스크 레이어에서 얼마나 살아남는가?

Kronos evaluation

여기서 Kronos README가 스스로 달아둔 주의 문구가 중요하다. 파인튜닝 예제는 Qlib를 사용해 중국 A-share 시장 데이터를 준비하고 간단한 백테스트까지 보여주지만, README는 이 파이프라인이 production-ready quant trading system이 아니라고 분명히 말한다. 실제 퀀트 전략에는 포트폴리오 최적화, 리스크 팩터 중립화, 거래 비용, 시장 충격, 동적 포지션 사이징 같은 레이어가 필요하다는 것이다.

이 문구는 면피용 주석이 아니라 실무 핵심이다. Kronos는 알파 엔진의 일부가 될 수는 있어도, 리스크 시스템을 대체하지 않는다.

실무적으로는 "예측 모델"보다 "리서치 파이프라인 컴포넌트"로 봐야 한다

Kronos 저장소 구조를 보면 examples/, finetune/, finetune_csv/, model/, tests/, webui/가 있다. README도 일반 예측 예제에서 끝나지 않고, 자체 데이터 파인튜닝과 Qlib 기반 백테스트까지 이어진다.

이 구성은 하나의 메시지를 준다. 앞으로 금융 AI 도구의 경쟁력은 "모델 하나가 가격을 맞히는가"가 아니라, 데이터 준비 → 사전학습 모델 호출 → 도메인 파인튜닝 → 신호 생성 → 백테스트 → 리스크 검증을 얼마나 반복 가능하게 묶느냐에서 나온다.

Kronos quant workflow

한국 개발자나 빌더가 여기서 바로 가져갈 수 있는 실무 포인트는 세 가지다.

1) 금융 데이터 전용 토크나이저가 핵심 자산이 된다

범용 LLM을 금융 뉴스나 리포트에 붙이는 흐름은 이미 익숙하다. 하지만 숫자 시계열 자체를 다룰 때는 전용 표현 학습이 필요하다. Kronos가 보여주는 방향은 "모든 데이터를 텍스트로 설명해서 LLM에 넣자"가 아니라, 금융 시계열에 맞는 토큰 체계를 만들고 그 위에 모델을 세우는 쪽이다.

2) 제로샷은 데모, 파인튜닝은 운영 후보, 백테스트는 최소 검문소다

README의 기본 예제는 몇 줄로 예측을 실행한다. 하지만 실제 프로젝트에서는 거기서 멈추면 안 된다. 자체 시장·주기·거래 비용 구조가 다르면 신호의 의미가 크게 달라진다. 그래서 제로샷 결과는 탐색용이고, 파인튜닝과 백테스트가 최소 검문소다.

3) 신호와 전략을 분리해야 한다

Kronos가 내놓는 것은 예측 또는 시계열 생성 신호다. 이 신호를 그대로 매수·매도 명령으로 바꾸는 순간, 모델 실험은 리스크 없는 장난이 아니라 운영 리스크가 된다. 실무에서는 신호 레이어와 포트폴리오/리스크 레이어를 분리하고, 벤치마크 대비 초과수익뿐 아니라 turnover, drawdown, capacity, transaction cost까지 같이 봐야 한다.

왜 지금 이 주제가 검색 가치가 있나

Kronos는 2025년 8월 arXiv에 올라온 논문이지만, 2026년 6월 현재 GitHub Trending에서 다시 주목받고 있다. 이건 단순히 오래된 논문이 늦게 발견됐다는 뜻만은 아니다. 최근 AI 개발자 생태계가 에이전트, 코딩 도구, 멀티모달 모델에 집중하는 동안, 도메인별 파운데이션 모델을 실제 워크플로에 붙이는 흐름도 조용히 커지고 있다는 신호로 볼 수 있다.

특히 금융은 범용 챗봇 데모와 가장 거리가 먼 도메인 중 하나다. 숫자 노이즈가 크고, 평가가 까다롭고, 작은 누수도 결과를 망친다. 그래서 Kronos 같은 프로젝트가 의미 있으려면 "AI가 투자한다"가 아니라 "금융 시계열 리서치의 공통 베이스라인을 공개 모델로 만들 수 있는가"라는 질문으로 접근해야 한다.

실무 해석: 지금 당장 써본다면 어디까지가 합리적인가

내가 이 모델을 오늘 팀에 소개한다면, 추천하는 접근은 보수적이다.

리서치 샌드박스에서 시작한다. 실거래나 고객-facing 기능이 아니라, 기존 시계열 베이스라인과 비교하는 실험으로 둔다.
데이터 누수 검사를 먼저 설계한다. 금융 시계열에서는 성능보다 검증 방식이 더 중요하다.
Kronos-base와 small을 모두 본다. 모델 크기보다 데이터 주기·컨텍스트 길이·추론 비용이 더 중요한 경우가 많다.
Qlib 백테스트 예제를 그대로 믿지 않는다. 구조는 참고하되, 비용·슬리피지·리스크 중립화·out-of-sample 기간을 자체 기준으로 다시 잡는다.
신호 품질과 운영 가능성을 분리해서 평가한다. 예측이 맞아도 거래 가능한 전략이 아닐 수 있다.

이렇게 보면 Kronos는 "자동매매 버튼"이 아니라 좋은 리서치 재료다. 그리고 오히려 그 편이 더 가치 있다. 과장된 투자 AI보다, 재현 가능한 실험 컴포넌트가 팀에 더 오래 남는다.

결론: 금융 AI의 다음 경쟁은 모델보다 검증 가능한 운영 루프다

Kronos의 핵심은 금융 캔들 데이터를 LLM 문법으로 흉내 낸다는 데 있지 않다. 더 정확히는, 금융 시계열을 전용 토큰과 사전학습 모델로 다루면서도, 파인튜닝·백테스트·리스크 주의사항까지 함께 공개한 점이 중요하다.

한국의 AI 빌더와 퀀트 개발자에게 이 프로젝트가 주는 메시지는 분명하다. 금융 AI에서 이기는 팀은 가장 화려한 데모를 가진 팀이 아니라, 데이터 표현·모델 실험·검증·리스크 운영을 한 루프로 묶는 팀이다. Kronos는 그 방향을 보여주는 꽤 좋은 오픈소스 신호다.