一句话即可自由生成，阿里通义语音双模型 Fun-CosyVoice3.5 与 Fun-AudioGen-VD 发布-炫佑科技-政企软件制作/小程序开发/网站设计一体化服务

发布时间：2026-05-03 13:37:58

IT之家 3 月 2 日消息，句话即阿里通义实验室语音团队今日发布了两款支持 FreeStyle 指令生成的自由模型 Fun-CosyVoice3.5 与 Fun-AudioGen-VD 。

官方宣称，生成双模无论是阿里精细控制声音表达，还是通义从零设计音色与场景，都可以通过自然语言指令直接生成。语音两款模型均支持通过自然语言指令控制语音生成，发布但应用方向不同：

Fun-CosyVoice3.5

该模型支持 FreeStyle 指令控制，句话即CosyVoice3.5 在 Instruct-TTS 方向实现能力升级，自由支持 FreeStyle 指令控制生成效果，生成双模一句话自由生成语音。阿里

用户可以直接用自然语言描述表达方式，通义例如：“语气坚定一点”、语音“稍微压低音调，发布语速慢一点” 、句话即“带一点情绪起伏”...... 模型即可理解并生成相应表达。

Fun-CosyVoice3.5 新增支持泰语、印尼语、葡萄牙语、越南语。同时在 13 种语言的 WER 和 SpkSim 客观指标上保持“业内领先”。

针对生僻字、复杂语句等容易读错的场景专项优化，Fun-CosyVoice3.5 生僻字读错率从 15.2% 降至 5.3%，复杂文本表现更加稳定，长文本朗读也更稳定流畅。

此外，Fun-CosyVoice3.5 通过强化学习技术专项调优，双重提升听感，使整体听感更加自然，表达更有层次。性能方面，Fun-CosyVoice3.5 的 Tokenizer 帧率减半，首包延迟降低 35%，在实时交互场景下响应更快，体验更流畅。

Fun-AudioGen-VD 支持根据自然语言描述，生成目标音色、情绪表达和完整听觉场景，实现“人物 + 场景”的一体化声音生成。

Fun-AudioGen-VD 不仅能生成声音，还能生成声音所处的“世界” ，打造沉浸式听觉场景。

IT之家附两款模型 API 调用官网如下：

https://help.aliyun.com/zh/model-studio/text-to-speech?spm=a2c4g.11186623.help-menu-2400256.d_0_3_2_0.d5536a31V2tEJP

友情链接

栏目导航

联系我们

13061561502山东省菏泽市牡丹区天华电商物流园89030530

扫码关注更多资讯