播客、访谈、体育解说、新闻报道和电商直播中,语音对话已经无处不在。
当前的文本到语音(TTS)模型在单句或孤立段落的语音生成效果上取得了令人瞩目的进展,合成语音的自然度、清晰度和表现力都已显著提升,甚至接近真人水平。不过,由于缺乏整体的对话情境,这些TTS模型仍然无法合成高质量的对话语音。
现在,历史时刻来到!上海创智学院、复旦大学和模思智能的OpenMOSS团队携手推出了革命性成果——MOSS-TTSD!首次基于百万小时音频训练,成功破除AI播客的「恐怖谷」魔咒。
MOSS-TTSD-V0全新释出,模型权重及推理代码全面开源,商业应用无障碍!
相关阅读:https://mp.weixin.qq.com/s/4mDLaF3TgUIJYLi6J7ioqg
项目地址:https://github.com/OpenMOSS/MOSS-TTSD
在线体验:https://huggingface.co/spaces/fnlp/MOSS-TTSD
更多详情:https://mp.weixin.qq.com/s/GbqGNl6wW_T-C0ChQ49XFw