BriefGPT.xyz
Ask
alpha
关键词
audio conditioning
搜索结果 - 2
DiT-Head:使用扩散变压器进行高分辨率说话人合成
我们提出了一种基于扩散变压器的新型对话头合成流程,利用音频作为条件来驱动扩散模型的去噪过程。我们的方法具有可扩展性,可以推广到多个身份,同时产生高质量的结果。通过与现有的对话头合成方法进行比较,我们对我们提出的方法进行训练和评估,并展示了我
→
PDF
7 months ago
AudioToken:基于文本条件扩散模型的音频到图像生成适应性
本论文提出了一种新方法,利用文本 - 图像生成中训练的潜在扩散模型,生成基于音频记录的图像。该方法使用预训练的音频编码模型将音频编码成新令牌,这可以被视为音频和文本表示之间的自适应层。结果表明,相较于基准方法,该方法在客观和主观度量方面表现
→
PDF
a year ago
Prev
Next