Supertonic 3: TTS가 클라우드 API에서 온디바이스 런타임으로 내려오는 신호

Supertonic 3 · 온디바이스 TTS · ONNX Runtime · 31개 언어

Supertone의 supertonic 저장소가 2026년 5월 17일 GitHub Trending에 다시 올라온 것은 단순한 스타 수 이벤트로만 보기 어렵다. 이 프로젝트가 흥미로운 이유는 "무료 TTS 모델"이라서가 아니라, 음성 합성을 클라우드 API 호출이 아니라 제품 내부의 로컬 런타임으로 넣을 수 있게 만드는 패키징을 보여주기 때문이다.

Supertonic 3 cover

Supertonic 3의 공식 README는 포지셔닝을 꽤 선명하게 잡는다. 99M 파라미터의 오픈 웨이트 모델, 31개 언어 지원, ONNX Runtime 기반 실행, Python·Node.js·Browser WebGPU·Swift/iOS·Rust·Go·Flutter 예제를 한 저장소에 묶는다. Hugging Face Space의 설명도 같은 방향이다. 사용자가 텍스트와 언어, 음성을 고르면 합성은 브라우저 안에서 실행되고, 데이터가 밖으로 나가지 않는다는 점을 강조한다.

이 글의 결론부터 말하면 이렇다. TTS 시장의 다음 경쟁축은 "누가 더 자연스럽게 말하느냐"만이 아니라, 누가 더 작고 빠르고 프라이버시 친화적인 음성 런타임을 배포 가능한 형태로 제공하느냐다.

기준 시점: 이 글은 2026-05-17에 확인한 supertone-inc/supertonic GitHub README, GitHub API 메타데이터, Hugging Face Space 설명, ONNX Runtime 문서 기준이다. 모델 파일, 데모, SDK 구조는 빠르게 바뀔 수 있다.

왜 지금 Supertonic 3를 봐야 하나

생성형 음성은 보통 두 가지 방식으로 소비됐다. 하나는 클라우드 API를 호출해 결과 음성을 받는 방식이고, 다른 하나는 로컬에서 돌리기엔 너무 무겁거나 플랫폼별 통합이 번거로운 연구용 모델을 직접 붙이는 방식이다. Supertonic 3는 이 둘 사이의 간격을 좁히려는 프로젝트로 읽힌다.

공식 README에서 제시하는 핵심 메시지는 다음 네 가지다.

99M 파라미터 오픈 웨이트 모델로, 0.7B~2B급 오픈 TTS 시스템보다 작다는 점을 강조한다.
31개 언어를 지원하며, 언어를 모를 때는 lang="na"로 언어 비의존 처리도 가능하다고 설명한다.
ONNX Runtime을 중심으로 Python, Node.js, Browser WebGPU, Java, C++, C#, Go, Swift, iOS, Rust, Flutter 예제를 제공한다.
클라우드·API 호출 없이 디바이스 안에서 실행되는 프라이버시와 낮은 지연시간을 주요 가치로 내세운다.

여기서 중요한 건 모델 하나보다 배포 표면이다. 개발자 입장에서는 "좋은 TTS 모델이 있다"보다 "내 앱의 브라우저, iOS, 데스크톱, 엣지 장비에 같은 계열의 모델을 어떻게 넣을 수 있느냐"가 훨씬 실무적인 질문이기 때문이다.

클라우드 TTS와 온디바이스 TTS의 차이는 비용보다 운영권이다

Cloud TTS vs on-device TTS

온디바이스 TTS를 단순히 "API 비용을 아끼는 방법"으로만 보면 핵심을 놓친다. 비용도 중요하지만 더 큰 차이는 운영권이다.

클라우드 TTS는 대체로 품질과 운영 편의성이 좋다. 모델 업데이트, 스케일링, 장애 대응을 공급자가 맡는다. 대신 제품은 네트워크, 지연시간, 데이터 반출, 지역별 규제, API 가격 정책에 묶인다. 반대로 온디바이스 TTS는 초기 통합과 모델 배포가 번거롭지만, 일단 제품 안에 들어오면 다음 선택지가 생긴다.

네트워크가 불안정하거나 없는 환경에서도 음성을 생성한다.
개인정보·업무 텍스트·의료·교육 콘텐츠를 외부 API로 보내지 않는다.
짧은 안내 음성, 접근성 기능, 읽어주기 기능처럼 반복 호출이 많은 워크로드의 단가를 예측 가능하게 만든다.
서버가 아니라 사용자 디바이스의 CPU/GPU/NPU/WebGPU 자원을 활용한다.

Supertonic README가 "no cloud, no API calls, no privacy concerns"를 반복해서 강조하는 이유도 여기에 있다. 이건 마케팅 문구라기보다 제품 아키텍처의 선택지다.

99M 파라미터와 31개 언어: 작게 만드는 것이 제품 기능이 된다

99M parameter multilingual model

Supertonic 3에서 눈에 띄는 숫자는 99M과 31이다. 99M 파라미터는 현재 대형 생성 모델 기준으로는 작다. 하지만 음성 합성 제품에서는 이 작음이 장점이 될 수 있다. 다운로드 크기, cold start, 메모리 점유, 모바일·브라우저 실행 가능성이 모두 모델 크기에 영향을 받기 때문이다.

README는 Supertonic 3가 Minimax-MLS-test 벤치마크에서 VoxCPM2 같은 더 큰 오픈 TTS 모델과 비교 가능한 WER/CER 범위에 머문다고 설명한다. 물론 벤치마크 수치만 보고 품질을 단정하면 안 된다. 실제 TTS 품질은 억양, 감정, 장문 안정성, 도메인 텍스트, 숫자·기호 처리, 한국어와 영어가 섞인 문장 등에서 다시 검증해야 한다.

그래도 방향은 분명하다. 오픈 TTS가 "거대한 연구 모델"에서 "제품에 넣을 수 있는 작은 런타임"으로 내려오려면, 절대 최고 품질보다 다음 조건들이 같이 중요해진다.

충분히 작은 모델 크기
예측 가능한 지연시간
여러 언어를 한 배포 단위로 처리하는 능력
브라우저·모바일·서버를 아우르는 실행 경로
라이선스와 모델 가중치 접근성

Supertonic 3가 흥미로운 이유는 바로 이 다섯 조건을 한꺼번에 건드리기 때문이다.

ONNX Runtime 중심 패키징이 주는 실무적 의미

ONNX Runtime SDK surface

Supertonic은 단순히 Python 예제만 올려둔 저장소가 아니다. 저장소의 top-level 구조에는 cpp/, csharp/, go/, ios/, java/, nodejs/, py/, rust/, swift/, web/, flutter/가 함께 있다. 이건 꽤 중요한 신호다.

모델을 제품에 넣을 때 가장 흔한 병목은 모델 자체보다 런타임이다. 연구 코드는 잘 돌아가도 실제 제품에서는 이런 질문이 바로 나온다.

브라우저에서 WebGPU로 돌릴 수 있는가?
iOS 앱에서 네이티브하게 붙일 수 있는가?
Node.js 백엔드나 Electron 앱에서 같은 자산을 재사용할 수 있는가?
Go/Rust/C++ 기반 데스크톱 또는 엣지 프로세스에서도 호출할 수 있는가?
모델 파일 배포, Git LFS, cold start, 음성 프리셋 관리를 어떻게 할 것인가?

ONNX Runtime은 이 질문에 대한 완벽한 답은 아니지만, 최소한 한 가지 방향을 준다. 모델을 특정 프레임워크 데모에 가두지 않고 여러 언어와 플랫폼에서 같은 추론 자산을 다루게 만든다. Supertonic의 가치는 그래서 "TTS 모델"과 "멀티 런타임 예제 묶음"이 결합된 지점에 있다.

한국 개발자와 빌더에게 특히 중요한 이유

Supertonic은 Supertone이 공개한 프로젝트라는 점에서도 한국 개발자에게 눈에 띈다. 하지만 국적보다 중요한 것은 사용처다. 한국어 제품은 음성 기능을 붙일 때 늘 다음 문제를 만난다.

영어 중심 모델은 한국어 억양·숫자·혼합 문장에서 품질 편차가 크다.
클라우드 API는 개인정보·상담·교육·사내 문서 읽기에서 부담이 생긴다.
접근성 기능은 반복 사용량이 많아 비용 예측이 중요하다.
모바일 앱은 네트워크 지연시간과 오프라인 상태를 무시하기 어렵다.

온디바이스 TTS는 이 모든 문제를 한 번에 해결하지 않는다. 하지만 적어도 "항상 서버로 보내야 한다"는 전제를 깨준다. 예를 들어 다음과 같은 제품에서는 Supertonic류의 로컬 TTS가 실제 후보가 될 수 있다.

문서·뉴스·블로그를 즉시 읽어주는 브라우저 확장
어린이·시니어용 오프라인 읽기 앱
사내 문서, 상담 기록, 의료·법률 텍스트를 외부 전송 없이 읽어주는 업무 도구
게임·인터랙티브 콘텐츠의 빠른 프로토타이핑 음성
라즈베리파이·키오스크·차량·웨어러블 같은 엣지 디바이스 안내 음성

이런 영역에서는 최고급 스튜디오 보이스보다 충분히 좋은 품질, 낮은 지연시간, 프라이버시, 배포 통제권이 더 중요할 수 있다.

주의할 점: 오픈 웨이트와 제품 준비 완료는 다르다

Supertonic 3를 긍정적으로 보더라도, 바로 모든 제품에 넣을 수 있다는 뜻은 아니다. 실무 적용 전에는 최소한 다음을 확인해야 한다.

체크포인트	왜 중요한가
한국어 장문 안정성	README 벤치마크와 실제 서비스 문장은 다르다. 긴 문장, 숫자, 영어 혼합, URL, 이모지 처리를 따로 봐야 한다.
음성 품질과 브랜드 톤	접근성 읽기에는 충분해도 브랜드 보이스나 광고 음성에는 부족할 수 있다.
라이선스·모델 배포 조건	코드 라이선스와 모델 가중치/음성 프리셋 사용 조건을 제품 배포 전에 분리해서 확인해야 한다.
클라이언트 자원 사용량	모바일 배터리, 브라우저 메모리, WebGPU 지원 여부는 사용자 환경마다 다르다.
안전·오남용 정책	음성 복제나 실시간 합성 기능은 사칭·스팸·딥페이크 리스크와 연결된다.

특히 README에 Voice Builder와 voice cloning demo가 함께 연결되어 있다는 점은 양면적이다. 빌더에게는 강력한 제품 기능이지만, 운영자에게는 권한 관리와 워터마킹, 사용 로그, 신고·차단 정책까지 같이 설계해야 한다는 뜻이다.

실무 해석: TTS도 "모델 API"가 아니라 "로컬 미디어 런타임"이 된다

Supertonic 3가 보여주는 흐름은 이미지 생성이나 코드 에이전트에서 이미 본 흐름과 닮았다. 처음에는 큰 모델 API가 시장을 연다. 그다음에는 더 작은 모델, 로컬 런타임, 브라우저 실행, 모바일 SDK, 제품별 커스텀이 뒤따른다.

음성 합성도 같은 길을 갈 가능성이 높다. 모든 음성을 클라우드에서 생성하는 시대가 바로 끝나지는 않겠지만, 제품 설계자는 이제 다음처럼 나눠 생각할 수 있다.

고품질 내레이션·브랜드 보이스·스튜디오 수준 결과물은 클라우드 또는 전문 파이프라인
반복적이고 짧은 읽기, 접근성, 프라이버시 민감 텍스트는 온디바이스
서버 비용이 큰 대량 합성은 하이브리드 캐싱·로컬 합성
프로토타이핑과 내부 도구는 오픈 웨이트 로컬 모델

이 구분이 생기면 TTS는 단순한 API 선택 문제가 아니라 제품 아키텍처 문제가 된다. Supertonic 3의 진짜 의미는 여기에 있다.

결론: 음성 AI의 경쟁은 더 작고 가까운 곳으로 간다

Supertonic 3는 "가장 강한 TTS 모델"이라고 단정하기보다, 온디바이스 음성 합성을 제품에 넣기 위한 현실적인 패키징 실험으로 보는 편이 정확하다. 99M 파라미터, 31개 언어, ONNX Runtime, 브라우저 WebGPU와 모바일·서버 예제는 모두 같은 방향을 가리킨다.

앞으로 음성 AI의 경쟁은 더 자연스러운 목소리만으로 결정되지 않는다. 누가 더 빠르게 시작하고, 더 적은 메모리로 돌고, 더 많은 디바이스에 붙고, 더 민감한 데이터를 밖으로 보내지 않게 만들 수 있는지가 중요해진다.

한국 개발자와 빌더에게 Supertonic 3는 그래서 좋은 체크포인트다. "음성 기능을 붙일까?"가 아니라 **"이 음성 기능은 꼭 클라우드에 있어야 하나?"**라고 다시 묻게 만들기 때문이다.