昨日,Index 语音团队开发的 IndexTTS2 文本生成语音大模型上架 GitHub。 尽管团队还没有正式发布这个模型,但展示视频和介绍页面已经做好了,并已经在 GitHub 上传文件。
🔗 相关阅读:B 站神级配音AI被曝光!一个「意外泄露」的视频,让鬼畜区 UP 主都沉默了
官方采用了《让子弹飞》《甄嬛传》来示意 IndexTTS2 的语音生成能力,从公布的演示视频来看,新模型能够精确控制情绪和时长。另从公布的演示音频来看,相较于前代 IndexTTS,TTS2 拥有更丰富的情绪表达,更自然的停顿。
根据 GitHub 项目页面,IndexTTS2 大模型的最主要能力,在于:
- 零样本语音克隆
- 支持情绪分离
- 指定 token 数量,来控制生成的语音长度
- 基于 Qwen3 微调,支持手动编辑情绪
值得一提的是,Index 语音团队全部来自于 B 站。
🔗 项目链接:https://index-tts.github.io/index-tts2.github.io/
|