BriefGPT.xyz
Ask
alpha
关键词
speech variation
搜索结果 - 2
看似相似,听起来不同:利用反事实的跨模态样本进行视听表示学习
研究了在音频与视觉之间进行对应时,出现多个音频轨道时的学习效果,探讨了使用配音版本来增加跨模态对比学习的方法,提出了考虑语音变化时学习场景级别的音频视觉对应关系的重要性,并表明配音可以作为训练音频视觉模型的一种有用增强技术。
PDF
a year ago
Flowtron: 基于流的自回归生成网络用于文本转语音合成
本文提出了一种自回归基于流的生成网络 Flowtron,用于对语音的合成,并提供了控制语音变化和风格转移的功能。Flowtron 通过最大化训练数据的可能性进行优化,学习将数据映射到一个潜在空间,可以操纵语音合成的许多方面。与现有模型进行比
→
PDF
4 years ago
Prev
Next