阿里公布新语音技术，合成语音与真人发声的相似度达97%以上

发布时间：2026-02-12 07:25:03

7月10日，阿里巴巴发布新一代语音组成技能KAN-TTS，称可大幅进步组成语音与真人发声的类似度，并将语音组成定制本钱下降10倍以上。该技能由达摩院机器智能实验室自主研制。阿里方面称，当时业界商用体系的组成语音与原始音频录音的挨近程度通常在85%到90%之间，而根据KAN-TTS技能的组成语音可将该数据进步到97%以上。

据悉，KAN-TTS由达摩院机器智能实验室自主研制，深度交融了现在干流的端到端TTS技能和传统TTS技能，从多个方面改进了语音组成。传统语音组成定制需求10小时以上的数据录制和标示，对录音人和录音环境要求很高。从发动定制到终究交给，项目周期长本钱高。

阿里使用Multi-Speaker Model与Speaker-aware Advanced Transfer Learning相结合的办法，将语音组成定制本钱下降10倍以上，周期紧缩3倍以上。也就是说，用1小时有用录音数据和不到两个月制造周期，就能完结一次规范TTS定制。

此外，这使得普通用户定制“AI声响”的门槛更低。只需手机录音十分钟，就能获得与录制声响高度类似的组成语音。

← 返回

新闻详情

阿里公布新语音技术，合成语音与真人发声的相似度达97%以上

PA国际厅官网主页

快速导航

联系信息

新闻详情

相关新闻

PA国际厅官网主页

快速导航

联系信息