关于有条件音频生成中的开放提示挑战
我们提出了一种用于文本到音频生成的简单的检索增强方法,通过使用检索到的音频文本数据对 TTA 模型的学习进行指导,从而改善了 AudioLDM 模型在长尾数据集上的性能,在 AudioCaps 数据集上,我们的改进模型 Re-AudioLDM 以巨大的优势超越了现有方法,能够生成逼真的音频并具备在复杂场景、罕见音频类别甚至未见过音频类型的潜力。
Sep, 2023
最近的文本到音频生成技术能使非专业用户自由生成音乐音频,通过尝试不同的文本提示生成音频;通过迭代比较,用户可以理解不同的文本提示和音频先验对生成结果的影响,并选择有利的音频先验,从而逐步达到松散规定的目标。
Jul, 2023
在机器学习模型的部署过程中,分布偏移是一个主要的挑战,特别是在文本到音频生成领域。为了解决用户提示信息过于模糊导致生成音频质量下降的问题,本文提出了一个基于检索的上下文提示编辑框架,利用训练标题作为示范样本重新审视用户提示,进而增强了收集到的用户提示的音频质量。
Nov, 2023
基于 PromptTTS 2,本研究通过利用变异网络和生成提示管道来解决基于文本提示的文本到语音 (TTS) 方法的挑战,提供声音的多样性信息并生成高质量的文本提示,从而产生与文本提示一致且具有多样性的声音。
Sep, 2023
近期,研究人员在文本转语音生成方面的关注度不断增加,本研究提出了一个名为 T2AV-Bench 的创新基准和一个简单而有效的视频对齐文本到音频生成模型 T2AV,通过整合视觉对齐的文本嵌入到生成模型中,通过时间多头注意力转换器从视频数据中提取和理解时间细微差异,并通过 Audio-Visual ControlNet 将时态视觉表示与文本嵌入精确地融合,进一步增强集成性,以确保视觉对齐和时间一致性。经过对 AudioCaps 和 T2AV-Bench 的广泛评估,T2AV 在视觉对齐和时间一致性上设立了新的标准。
Mar, 2024
本研究开发了一个名为 PromptTTS 的语音合成系统,利用文本描述来指导语音的生成,从而实现了对语音风格的精确控制。与已有的控制语音风格的技术相比,PromptTTS 更加用户友好。实验表明,PromptTTS 可以生成具有精确风格控制和高质量的语音。
Nov, 2022
本研究采用基于指令调整的大型语言模型 Flan-T5 作为文本编码器,通过使用基于声音压力级的声音混合来进行训练集增强,从而取得了比 AudioLDM 更好的结果,成为了生成文字描述音频的任务中的最佳选择。
Apr, 2023
研究使用 diffusion-DPO(直接偏好优化)损失在偏好数据集上对 Tango 文本到音频模型进行微调,以改进音频生成性能,并且在自动和手动评估指标上显示出优于 Tango 和 AudioLDM2 的效果。
Apr, 2024
该文章提出了一种基于视觉对齐的新型个性化文本转语音生成方法 ——DiffAVA,它使用多头注意力变换器聚合视觉特征的时间信息,并利用双模残差网络将时间视觉表示与文本嵌入进行融合,然后采用对比学习目标来匹配视觉对齐的文本嵌入和音频特征。研究结果表明,DiffAVA 在视觉对齐的文本转音频生成方面具有竞争力的表现。
May, 2023