目前的文本转语音(TTS)技术通常专注于合成自然、清晰的语音,并且在语调、节奏和情感表达方面已经取得了显著进展。
然而,合成非言语发声还是一个相对较新的领域。虽然一些高级TTS系统可能在合成笑声方面取得了一些进展,但要完全准确地生成非语言发声仍然存在挑战。
但是微软最近提出的EmoCtrl-TTS是一款可控制情绪的零样本 TTS,可以为任何说话者生成带有非语言发声(例如笑声和哭声)的高度情绪化的语音。
EmoCtrl-TTS利用表示情感和非语言声效的嵌入来调节基于流匹配的零样本文本转语音(TTS)技术。
为了生成高质量的情感语音,EmoCtrl-TTS使用伪标签法筛选出超过27,000小时的表达数据进行训练。
该技术目前有三个突破性的创新,分别是生成含有随时间变化的情感状态的语音、生成非言语性发声、情感语音翻译。
EmoCtrl-TTS利用情感嵌入和流匹配技术,能够捕捉语音提示中的情感变化状态,生成具有动态情感的语音。
这使得合成的语音更加自然和真实,能更好地表达说话者的情感变化。
demo:
输入:
Voicebox:
Elate:
Emoctrl:
从demo中可以很明显的听出EmoCtrl-TTS对于示例语音当中的情绪模仿的是最逼真的,而且对于这种情绪的变化的生成也是最相近的。
而且这种对于情绪的识别不受语言的限制,EmoCtrl-TTS还具备将一种语言的情感语音翻译成另一种语言的情感的能力,保留说话者的情感表达。
输入日语的的语音生成英语的语音,其中要表达的情感EmoCtrl-TTS几乎能够完美的呈现。
demo:
输入:
Voicebox:
Elate:
Emoctrl:
下一篇: 最后一页
tortoise-tts学习资料汇总 - 高质量多声音TTS系统
2024-12-31
PaddleSpeech入门学习资料汇总 - 开源语音AI工具包
2025-01-02
pot-desktop使用指南 - 跨平台划词翻译和OCR软件
2025-01-02
understand-prompt学习资料汇总 - AI助手的探索与应用
2025-01-02
GPT4All学习资源汇总 - 在本地设备上运行大型语言模型
2025-01-02
2025-01-02
wechat-bot入门指南 - 基于ChatGPT的微信聊天机器人
2025-01-02
Cheetah - AI助手学习资料汇总 - Mac应用助力远程技术面试
2025-01-02
AI代码翻译器学习资料汇总 - 使用AI将代码从一种语言翻译成另一种语言
2025-01-02