Voice-ai

Published on
July 10, 2026
Kyutai Pocket TTS: 음성 AI가 클라우드 API에서 CPU 런타임으로 내려오는 순간
Kyutai Pocket-TTS TTS Voice-AI On-device-AI Local-AI
Kyutai Pocket TTS는 단순한 오픈소스 TTS 모델이 아니다. 100M 파라미터, CPU 실행, 스트리밍 생성, 음성 클로닝, 로컬 서버/API 패키징을 묶으면서 음성 AI를 클라우드 호출이 아니라 제품 내부 런타임으로 다루게 만든다.
Read more →
Published on
June 7, 2026
Microsoft VibeVoice ASR: 60분 음성을 한 번에 읽는 오픈소스 음성 런타임의 의미
Microsoft VibeVoice Speech-to-Text ASR Voice-AI Open-Source-AI vLLM
Microsoft VibeVoice ASR은 단순한 음성 인식 모델이 아니라, 긴 회의·강의·콜 로그를 speaker, timestamp, transcript 구조로 한 번에 처리하려는 오픈소스 음성 런타임이다. 60분 single-pass, 50개 이상 언어, hotword, Transformers/vLLM 배포, LoRA 파인튜닝이 왜 개발자에게 중요한지 정리한다.
Read more →
Published on
May 29, 2026
OpenMOSS MOSS-TTS: 오픈소스 음성 AI가 TTS 데모를 넘어 오디오 런타임이 되는 신호
OpenMOSS MOSS-TTS Text-to-Speech Audio-Generation Open-Source-AI Voice-AI
OpenMOSS의 MOSS-TTS v1.5와 MOSS-SoundEffect v2.0은 단순한 음성 합성 모델 업데이트가 아니다. 음성 복제, 다국어 합성, 장문 안정성, 명시적 pause 제어, 환경음 생성, 실시간 TTS까지 묶으면서 오픈소스 오디오 AI가 제품 런타임 계층으로 내려오고 있다.
Read more →

Voice-ai

Voice-ai

Kyutai Pocket TTS: 음성 AI가 클라우드 API에서 CPU 런타임으로 내려오는 순간

Microsoft VibeVoice ASR: 60분 음성을 한 번에 읽는 오픈소스 음성 런타임의 의미

OpenMOSS MOSS-TTS: 오픈소스 음성 AI가 TTS 데모를 넘어 오디오 런타임이 되는 신호