VibeVoice-1.5B

Openbayes

基于数据IO的机器学习服务提供商

+关注

已关注

已点赞

已收藏

VibeVoice-1.5B 能生成富有表现力、长篇幅、多说话者的对话式音频，如播客。该模型通过创新的连续语音标记化技术和下一代标记扩散框架，结合大型语言模型（LLM），实现高效处理长序列音频的能力，同时保持高保真度。VibeVoice 能合成长达 90 分钟的语音，支持多达 4 位不同说话者，突破传统 TTS 系统的限制，为自然对话和情感表达提供新的可能。