VoxCPM2: TTS가 음성 출력에서 제어 가능한 음성 모델 인프라로 바뀌는 신호

VoxCPM2 · Tokenizer-Free TTS · Voice Design · Voice Cloning

OpenBMB의 VoxCPM 저장소가 2026년 6월 17일 GitHub Trending의 AI/agent/tooling 항목으로 다시 눈에 띈 것은 단순한 인기 이벤트로만 보기 어렵다. 이 프로젝트가 흥미로운 이유는 “오픈소스 TTS 모델 하나가 더 나왔다”가 아니라, 음성 합성이 텍스트를 읽어주는 기능에서 제어 가능한 음성 생성 인프라로 이동하고 있다는 신호를 꽤 선명하게 보여주기 때문이다.

VoxCPM2 cover

VoxCPM2의 공식 README와 기술 보고서는 몇 가지 숫자를 전면에 둔다. 2B 파라미터, 200만 시간 이상의 다국어 음성 학습 데이터, 30개 언어와 9개 중국어 방언, 48kHz 출력, 자연어 기반 voice design, style-controllable voice cloning, 그리고 외부 discrete speech tokenizer에 의존하지 않는 tokenizer-free / continuous-latent 계열 접근이다.

이 글의 결론부터 말하면 이렇다. VoxCPM2의 핵심은 “더 자연스러운 TTS”보다 “목소리·언어·스타일·복제 조건을 하나의 모델 백본에서 조작하는 음성 운영 계층”에 있다. 한국 개발자와 빌더가 봐야 할 포인트도 데모 음질보다 이 운영 계층이다.

기준 시점: 이 글은 2026-06-18에 확인한 OpenBMB/VoxCPM GitHub README, GitHub API 메타데이터, VoxCPM2 arXiv 기술 보고서, VoxCPM 공식 문서, Hugging Face 모델 페이지 기준이다. 모델 가중치, 데모, 문서, 라이선스·사용 조건은 빠르게 바뀔 수 있으니 실제 적용 전 원문을 다시 확인해야 한다.

왜 VoxCPM2를 지금 봐야 하나

생성형 음성은 그동안 크게 두 갈래로 소비됐다. 하나는 클라우드 TTS API를 호출해 “읽어주는 음성”을 받는 방식이다. 다른 하나는 연구용 모델을 내려받아 데모 수준으로 붙이는 방식이다. 둘 다 쓸모는 있지만, 제품을 만드는 입장에서는 중간이 비어 있었다.

제품 팀이 실제로 원하는 것은 보통 다음에 가깝다.

텍스트만 읽는 것이 아니라 감정, 속도, 톤, 역할을 조정하고 싶다.
특정 사람이나 캐릭터의 timbre를 유지하면서 표현을 바꾸고 싶다.
한국어, 영어, 일본어, 중국어가 섞인 콘텐츠를 한 파이프라인에서 처리하고 싶다.
데모가 아니라 Python API, CLI, 웹 데모, 배포 경로까지 이어지는 패키지를 원한다.
음성 복제 기능을 넣되 동의, 감사 로그, 제한 정책을 같이 설계해야 한다.

VoxCPM2는 이 요구들을 한 모델 계열 안으로 끌어오려는 시도다. README는 자연어 설명만으로 새 목소리를 만드는 Voice Design, 짧은 레퍼런스 오디오와 스타일 가이드를 함께 쓰는 Controllable Cloning, 레퍼런스 오디오와 transcript를 같이 제공해 vocal nuance를 이어가는 Ultimate Cloning을 한 흐름 안에 둔다.

중요한 것은 “목소리 복제가 된다”는 자극적인 문장이 아니다. 더 중요한 변화는 음성 모델의 입력 조건이 텍스트 하나에서 텍스트·참조 음성·스타일 설명·언어·감정·속도 같은 조합으로 넓어지고 있다는 점이다.

tokenizer-free라는 말은 왜 중요한가

Tokenizer-free continuous-latent TTS

LLM 세계에서는 tokenizer가 너무 당연해서 음성에서도 “일단 토큰화하고 모델이 예측한다”는 설명이 익숙하다. 하지만 음성은 텍스트보다 훨씬 연속적이다. 억양, 길이, 호흡, 떨림, 감정, 발화 속도는 딱딱한 discrete token만으로 깔끔하게 담기 어렵다.

VoxCPM2 기술 보고서는 이 지점을 직접 건드린다. VoxCPM2는 VoxCPM의 hierarchical diffusion-autoregressive modeling paradigm을 확장하면서, 외부 discrete speech tokenizer에 의존하지 않는 continuous-latent modeling이 대규모 다국어·제어 가능 음성 생성의 기반이 될 수 있다고 주장한다.

쉽게 말하면 이렇다.

discrete token 중심 접근은 음성을 잘게 잘라 기호열처럼 다루려는 방향에 가깝다.
continuous-latent 접근은 음성의 연속적인 성질을 더 직접적으로 모델 내부 표현에 남기려는 방향이다.
VoxCPM2는 여기에 diffusion-autoregressive 구조와 asymmetric AudioVAE를 결합해 16kHz 입력/인코딩과 48kHz 재구성을 연결한다.

이 차이는 단순한 논문 취향이 아니다. 제품 입장에서는 제어 가능성과 품질 안정성의 문제다. 음성 생성에서 사용자가 원하는 것은 “문장 A를 읽어줘”만이 아니라 “이 캐릭터처럼, 다만 더 차분하게, 감정은 낮추고, 한국어 문장 중 영어 제품명은 어색하지 않게”에 가깝다. 이런 요구는 discrete token을 맞히는 문제라기보다 연속적인 발화 공간을 조작하는 문제에 더 가깝다.

그래서 VoxCPM2를 볼 때 tokenizer-free는 마케팅 키워드가 아니라 아키텍처적 방향으로 읽는 편이 맞다. 음성 모델이 텍스트 생성 모델의 흉내를 내는 것을 넘어, 음성 고유의 표현 공간을 제품 제어면으로 끌어올리려는 흐름이다.

30개 언어, 9개 방언, 48kHz: 숫자보다 중요한 것은 “한 백본”이다

Multilingual voice control

공식 README가 내세우는 숫자는 꽤 크다. VoxCPM2는 30개 언어를 지원하고, 중국어 방언 9개도 명시한다. 지원 언어 목록에는 Korean도 포함되어 있다. 출력은 48kHz studio-quality audio로 설명되며, technical report는 내부 30-language evaluation set에서 평균 WER 1.68%를 기록했다고 적는다.

하지만 여기서 숫자 자체보다 중요한 것은 여러 기능이 별도 모델 묶음이 아니라 하나의 백본에서 다뤄진다는 점이다. 기술 보고서는 VoxCPM2가 unified sequence organization을 통해 다양한 생성 모드를 같은 input building blocks의 다른 배열로 표현하고, 단일 파라미터·목표 아래 joint training한다고 설명한다.

이 방향은 제품 설계에 꽤 큰 의미가 있다.

제품 질문	전통적인 TTS 관점	VoxCPM2류 모델에서의 관점
다국어 지원	언어별 엔진 또는 별도 튜닝을 고민	하나의 다국어 백본에서 언어·발화 스타일을 함께 제어
브랜드 보이스	성우 녹음·후처리·프리셋 관리 중심	자연어 voice design과 reference cloning을 조합
음질	샘플링레이트와 후처리 품질 중심	latent 표현, AudioVAE, super-resolution 구조까지 포함
운영 리스크	음성 파일 생성 품질 관리	동의·복제 권한·스타일 제어·감사 로그까지 포함

개발자에게 특히 중요한 것은 언어 지원 숫자보다 혼합 입력과 제어 방식이다. 한국어 제품은 실제로 한국어만 쓰지 않는다. 제품명, 영어 약어, 일본어 고유명사, 숫자, URL, 코드 조각, 이모지가 섞인다. 다국어 TTS의 실무 품질은 “한국어 지원” 한 줄이 아니라 이런 혼합 문장을 얼마나 덜 어색하게 처리하느냐에서 갈린다.

VoxCPM2가 바로 그 문제를 완전히 해결했다고 단정할 수는 없다. 하지만 모델의 방향은 분명하다. TTS가 언어별 낭독 엔진이 아니라, 다국어 발화와 표현 스타일을 함께 다루는 음성 foundation model로 재편되고 있다.

설치와 실행 경로: 연구 모델에서 제품 후보로 가려면 문서가 중요하다

VoxCPM2가 GitHub Trending에서 의미 있는 이유 중 하나는 저장소가 단순 논문 링크로 끝나지 않는다는 점이다. 공식 문서는 pip install voxcpm으로 시작하는 quick start를 제공하고, Python API, CLI, web demo 경로를 제시한다. README도 VoxCPM.from_pretrained("openbmb/VoxCPM2") 형태의 예제를 바로 보여준다.

물론 이걸 “바로 프로덕션 투입 가능”이라고 읽으면 곤란하다. 요구사항에는 Python 3.10 이상, PyTorch 2.5 이상, CUDA 12.0 이상이 명시되어 있고, 문서는 device="auto"가 cuda -> mps -> cpu 순으로 선호한다고 설명한다. 즉 서버/워크스테이션 추론을 염두에 둔 성격이 강하다.

이 지점에서 지난달 다뤘던 Supertonic 3와 결이 갈린다. Supertonic 3는 99M 파라미터와 ONNX Runtime, 브라우저·모바일 배포 표면이 핵심이었다면, VoxCPM2는 더 큰 2B급 모델로 제어 가능성과 고품질 복제/디자인 기능을 전면에 둔다.

둘은 같은 TTS가 아니다. 실무적으로는 이렇게 나눠 보는 편이 낫다.

접근성 읽기, 온디바이스, 반복 호출, 프라이버시 중심: 작고 가벼운 로컬 TTS 후보를 먼저 본다.
고품질 캐릭터 음성, 브랜드 보이스, 다국어 표현력, voice design/cloning 중심: VoxCPM2류의 큰 음성 foundation model을 후보로 본다.
대규모 제품 배포: 모델 품질보다 큐잉, 캐시, 워터마킹, 권한 관리, 비용 모델을 같이 설계한다.

즉 VoxCPM2는 “가볍게 앱 안에 넣는 TTS”라기보다, 음성 생성 파이프라인의 상위 품질·제어 계층에 가깝다.

Voice cloning은 기능이 아니라 운영 책임이다

Voice model operations and guardrails

VoxCPM2에서 가장 눈길을 끄는 기능은 voice cloning이다. 하지만 이 기능을 제품에 넣는 순간, 기술 문제가 바로 운영 문제로 바뀐다.

README는 짧은 reference clip을 이용한 controllable cloning, transcript와 reference audio를 함께 쓰는 ultimate cloning, 자연어 voice design을 모두 소개한다. 빌더에게는 강력한 기능이다. 고객지원 봇, 교육 콘텐츠, 게임 캐릭터, 오디오북, 로컬라이제이션, 영상 더빙, 접근성 기능에 모두 쓸 수 있다.

하지만 운영자는 아래 질문을 피할 수 없다.

동의 확인 — reference audio의 소유자와 사용 범위를 어떻게 검증할 것인가?
권한 분리 — 누구나 cloning을 쓸 수 있게 할 것인가, 승인된 프로젝트만 열 것인가?
감사 로그 — 어떤 텍스트가 어떤 목소리로 언제 생성됐는지 남길 것인가?
출력 워터마킹 — 생성 음성임을 추적하거나 표시할 방법이 있는가?
오남용 대응 — 사칭, 사기, 스팸, 정치·금융 오용을 어떻게 차단할 것인가?
한국어 혼합 문장 검수 — 숫자, 이름, 회사명, 주소, 계좌, 의료·법률 문장을 별도로 테스트할 것인가?

이 리스트는 “나중에 정책팀이 알아서 할 일”이 아니다. 음성 복제는 제품 아키텍처 단계에서 권한과 로그를 같이 설계해야 한다. 특히 한국 시장에서는 보이스피싱, 유명인 사칭, 금융·공공기관 음성 위조 리스크가 이미 익숙하다. 그래서 voice cloning 모델을 붙일 때는 모델 API보다 운영 가드레일 API가 먼저 필요할 수 있다.

실무 해석: TTS는 이제 세 가지 층으로 나뉜다

VoxCPM2를 보고 “이 모델이 ElevenLabs나 OpenAI TTS를 이기느냐”로만 비교하면 질문이 좁다. 더 중요한 변화는 TTS 시장이 점점 세 층으로 갈라지고 있다는 점이다.

1) 단순 낭독 계층

뉴스, 문서, 알림, 접근성 읽기처럼 텍스트를 빠르고 안정적으로 음성화하는 계층이다. 여기서는 latency, 비용, 언어 안정성, 디바이스 지원이 중요하다. 아주 강한 voice design보다 예측 가능성이 더 중요하다.

2) 제어 가능한 표현 계층

브랜드 보이스, 캐릭터, 감정, 속도, 연령, 말투, 장르가 중요한 계층이다. VoxCPM2가 노리는 곳은 여기에 가깝다. 자연어 voice design과 style-controllable cloning은 음성 합성을 콘텐츠 제작 도구이자 제품 설정값으로 만든다.

3) 운영·거버넌스 계층

음성 복제 허가, 감사 로그, 워터마킹, abuse detection, 지역별 규제, 사용자 신고, 모델 업데이트 관리가 들어가는 계층이다. voice cloning이 제품에 들어가는 순간 이 계층은 선택 사항이 아니다.

한국 개발자와 빌더가 취할 실용적인 결론은 명확하다. “TTS 기능 하나 붙이자”가 아니라, 우리 제품의 음성은 어느 층에 속하는가부터 정해야 한다. 단순 읽기라면 작고 안정적인 런타임이 맞을 수 있고, 캐릭터와 브랜드 표현이 핵심이라면 VoxCPM2 같은 제어 가능한 foundation model을 검토할 만하다. 반대로 사람 목소리를 복제한다면 모델 선택보다 동의·감사·차단 체계가 먼저다.

도입 전에 확인할 체크리스트

VoxCPM2를 실제 후보로 볼 때는 최소한 아래를 확인해야 한다.

체크포인트	확인할 이유
한국어 장문 품질	지원 언어 목록과 실제 서비스 문장 품질은 다르다. 숫자, 영어 혼합, 고유명사, URL을 별도로 테스트해야 한다.
GPU/메모리 비용	2B 모델은 온디바이스 경량 TTS와 다른 운영 모델을 요구한다. cold start와 동시 처리량을 측정해야 한다.
cloning 입력 정책	reference audio 수집, 보관, 삭제, 재사용 동의를 제품 플로우에 넣어야 한다.
라이선스와 모델 카드	GitHub 저장소는 Apache-2.0을 표시하지만, 실제 가중치·데이터·상업 사용 조건은 배포처 문서를 같이 확인해야 한다.
안전장치	워터마킹, 생성 기록, abuse report, 위험 텍스트 차단을 별도 시스템으로 설계해야 한다.
대체 경로	클라우드 API, 작은 로컬 TTS, 캐싱/사전 생성 방식과 비용·품질을 비교해야 한다.

특히 “오픈소스”라는 표현만 보고 법적·운영 리스크가 사라진다고 생각하면 위험하다. 음성 모델은 텍스트 모델보다 훨씬 직접적으로 개인의 정체성과 연결된다. 목소리는 UI 요소가 아니라 신원 신호로 받아들여질 수 있기 때문이다.

결론: 음성 AI의 경쟁축은 “읽기”에서 “제어”로 이동한다

VoxCPM2는 단순히 또 하나의 TTS 모델이 아니다. 2B 파라미터, 200만 시간 이상 다국어 음성 데이터, 30개 언어, 48kHz 출력, tokenizer-free continuous-latent 접근, natural-language voice design, controllable cloning을 한 백본으로 묶으면서 음성 합성의 경쟁축을 바꾸고 있다.

앞으로 음성 AI에서 중요한 질문은 “얼마나 자연스럽게 읽느냐”에서 끝나지 않는다. 더 중요한 질문은 다음과 같다.

원하는 목소리를 자연어로 설계할 수 있는가?
reference voice의 timbre와 스타일을 분리해서 제어할 수 있는가?
여러 언어와 혼합 문장을 같은 파이프라인에서 안정적으로 처리할 수 있는가?
생성 음성의 권한, 동의, 로그, 오남용 대응을 제품 안에 넣을 수 있는가?

VoxCPM2가 보여주는 방향은 분명하다. TTS는 더 이상 “텍스트를 음성 파일로 바꾸는 API”가 아니라, 제품이 목소리를 설계하고 운영하는 인프라가 되고 있다. 한국 개발자에게 중요한 것은 데모 음질에 감탄하는 것이 아니라, 이 변화가 자기 제품의 음성 전략을 어떻게 바꾸는지 먼저 따져보는 일이다.