邱锡鹏团队开源MOSS-TTSD!百万小时音频训练,突破AI播客恐怖谷

2025.07.09阅读量:12

科研进展

播客、访谈、体育解说、新闻报道和电商直播中,语音对话已经无处不在。

当前的文本到语音(TTS)模型在单句或孤立段落的语音生成效果上取得了令人瞩目的进展,合成语音的自然度、清晰度和表现力都已显著提升,甚至接近真人水平。不过,由于缺乏整体的对话情境,这些TTS模型仍然无法合成高质量的对话语音。

现在,历史时刻来到!上海创智学院、复旦大学和模思智能的OpenMOSS团队携手推出了革命性成果——MOSS-TTSD首次基于百万小时音频训练,成功破除AI播客的「恐怖谷」魔咒。

MOSS-TTSD-V0全新释出,模型权重及推理代码全面开源,商业应用无障碍!

相关阅读:https://mp.weixin.qq.com/s/4mDLaF3TgUIJYLi6J7ioqg


项目地址:https://github.com/OpenMOSS/MOSS-TTSD

在线体验:https://huggingface.co/spaces/fnlp/MOSS-TTSD

更多详情:https://mp.weixin.qq.com/s/GbqGNl6wW_T-C0ChQ49XFw