
- Published on
Microsoft VibeVoice ASR은 단순한 음성 인식 모델이 아니라, 긴 회의·강의·콜 로그를 speaker, timestamp, transcript 구조로 한 번에 처리하려는 오픈소스 음성 런타임이다. 60분 single-pass, 50개 이상 언어, hotword, Transformers/vLLM 배포, LoRA 파인튜닝이 왜 개발자에게 중요한지 정리한다.

Microsoft VibeVoice ASR은 단순한 음성 인식 모델이 아니라, 긴 회의·강의·콜 로그를 speaker, timestamp, transcript 구조로 한 번에 처리하려는 오픈소스 음성 런타임이다. 60분 single-pass, 50개 이상 언어, hotword, Transformers/vLLM 배포, LoRA 파인튜닝이 왜 개발자에게 중요한지 정리한다.

OpenMOSS의 MOSS-TTS v1.5와 MOSS-SoundEffect v2.0은 단순한 음성 합성 모델 업데이트가 아니다. 음성 복제, 다국어 합성, 장문 안정성, 명시적 pause 제어, 환경음 생성, 실시간 TTS까지 묶으면서 오픈소스 오디오 AI가 제품 런타임 계층으로 내려오고 있다.