F5-TTS是一款基于流匹配的全非自回归文本到语音转换系统,由上海交通大学、剑桥大学和吉利汽车研究院联合开发。该系统无需复杂设计,如持续时间模型、文本编码器和音素对齐,能够实现快速训练,并达到RTF(实时因素)0.15的推理速度,明显优于当前基于扩散的TTS模型。GitHub上获得超1.04万个Star1400多次Fork

项目地址:https://github.com/SWivid/F5-TTS

Logo

宁波官方开源宣传和活动阵地,欢迎各位和我们共建开源生态体系!

更多推荐