声纹(声音克隆)
基本介绍
声纹技术是指通过人工智能模型,生成与特定声音特征一致的语音音频。将声纹信息与文本内容结合,可以生成具有特定音色、语调和语速的语音。声纹技术广泛应用于个性化语音合成、语音助手、智能客服等领域。
目前模型广场已上线的语音合成模型 基本都支持声纹,但是每个模型使用声纹的方式有所不同,主要包含如下几种方式:
- 内置声纹
- 直接使用录音作为声纹
- 使用录音与对应的文本内容作为声纹
- 使用
.pt格式的声纹文件
一. 内置声纹
部分模型不支持自定义声纹,它内置了为数不多的几个声纹信息,用户可以直接使用这些模型进行语音合成。例如 Spark-TTS-0.5B 可以选择内置的男生、女生声纹。

二. 直接使用录音作为声纹
IndexTTS-1.5 使用录音作为声纹信息,用户只需上传一段音频文件,模型会自动提取音频中的声音特征进行语音合成。
