收录于 AI

2026-04-04 约 357 字预计阅读 2 分钟 - 次阅读

VibeVoice：Microsoft 开源的前沿语音 AI

什么是 VibeVoice

VibeVoice 是 Microsoft 于 2025 年 8 月发布的开源语音 AI 项目，可以生成长达 90 分钟的多说话者播客内容。该项目在 GitHub 上已获得 35,900+ 颗星，是当前最受欢迎的开源语音合成项目之一。

VibeVoice 的核心能力是表达性长文本对话语音合成，能够生成自然流畅的多人对话播客。

核心特性

1. 超长语音生成

支持生成长达 90 分钟的连续语音内容
适合播客、有声书、长对话场景
保持一致的语音质量

2. 多说话者支持

支持多个说话者同时对话
区分不同角色的声音和情感
自然的对话节奏

3. 表达性语音

情感丰富的语音输出
自然的语调变化
支持多种说话风格

4. 开源免费

MIT 许可证 - 完全开源
免费商用
社区活跃（社区 fork 版本有 1000+ 星）

5. Python 实现

纯 Python 实现
易于集成和扩展
丰富的 API 接口

安装配置

环境要求

Python 3.8+
CUDA（推荐用于 GPU 加速）
16GB+ RAM

安装步骤

1
2
3
4
5
6
7
8
9


# 克隆仓库
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# 安装依赖
pip install -r requirements.txt

# 下载模型
python download_models.py

使用 Docker

1
2


# 使用 Docker Compose
docker compose up -d

基本使用

1. 命令行生成

1
2
3
4
5


# 生成语音
python generate.py --input text.txt --output audio.wav

# 指定说话者数量
python generate.py --input script.json --speakers 2 --output podcast.wav

2. Python API

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16


from vibevoice import VibeVoice

# 初始化
vv = VibeVoice()

# 生成对话
script = [
    {"speaker": "A", "text": "大家好，欢迎收听今天的节目。"},
    {"speaker": "B", "text": "谢谢邀请，今天我们要讨论 AI 技术。"},
]

# 生成语音
audio = vv.generate(script)

# 保存
vv.save(audio, "podcast.wav")

3. 配置文件

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


from vibevoice import VibeVoiceConfig

config = VibeVoiceConfig(
    speakers=2,           # 说话者数量
    duration=3600,        # 最大时长（秒）
    voice_a="voice1",     # 说话者 A 的声音
    voice_b="voice2",     # 说话者 B 的声音
    speed=1.0,           # 语速
    emotion="neutral",   # 情感
)

应用场景

1. 播客制作

自动生成播客内容
多角色对话
长篇访谈

2. 有声书

将文字转换为语音
多种声音角色
保持情感一致性

3. 教育内容

在线课程配音
培训材料语音化
多语言教育

4. 无障碍应用

视障人士辅助
语音导航
阅读辅助

与其他语音合成工具对比

工具	类型	时长	多说话者	许可证
VibeVoice	开源	90分钟	✅	MIT
ElevenLabs	商业	有限	✅	专有
Azure TTS	商业	有限	✅	专有
Coqui TTS	开源	短	✅	MPL

项目结构

1
2
3
4
5
6


VibeVoice/
├── models/           # 预训练模型
├── src/             # 核心代码
├── examples/        # 示例代码
├── tests/           # 测试
└── docs/            # 文档

注意事项

合规问题

使用 VibeVoice 时需要注意：

语音克隆伦理：确保获得说话者授权
内容审核：生成内容需符合法规
商业使用：检查第三方模型许可

性能优化

使用 GPU 加速
批处理提高效率
模型量化减少内存

总结

VibeVoice 是一个强大的开源语音 AI 工具，具有：

✅ 超长语音生成 - 90分钟连续输出
✅ 多说话者 - 自然对话效果
✅ 完全开源 - MIT 许可证
✅ 社区活跃 - 35K+ 星标
✅ 易于使用 - Python API

如果你需要生成播客、有声书或长文本语音内容，VibeVoice 是极佳的选择。

参考链接

GitHub：https://github.com/microsoft/VibeVoice
官方文档：https://microsoft.github.io/VibeVoice/
社区版：https://github.com/vibevoice-community/VibeVoice