关于有条件音频生成中的开放提示挑战

Nov, 2023

关于有条件音频生成中的开放提示挑战

On The Open Prompt Challenge In Conditional Audio Generation

Ernie Chang, Sidd Srinivasan, Mahi Luthra, Pin-Jie Lin, Varun Nagaraja...

TL;DR通过使用指令调整模型改写提示文本并利用文本音频对齐作为反馈信号，通过边界排序学习从而改善音频的质量和文本音频的对齐，从客观和主观的人类评估中观察到了明显的改善。

Abstract

text-to-audio generation (TTA) produces audio from a text description, learning from pairs of audio samples and hand-annotated text. However, commercializing →

text-to-audio generation audio generation user prompt audionese text-audio alignment

发现论文，激发创造

检索辅助文本转语音生成

我们提出了一种用于文本到音频生成的简单的检索增强方法，通过使用检索到的音频文本数据对 TTA 模型的学习进行指导，从而改善了 AudioLDM 模型在长尾数据集上的性能，在 AudioCaps 数据集上，我们的改进模型 Re-AudioLDM 以巨大的优势超越了现有方法，能够生成逼真的音频并具备在复杂场景、罕见音频类别甚至未见过音频类型的潜力。

Sep, 2023

IteraTTA: 探索使用文本提示和音频先验在生成音乐时的界面设计

最近的文本到音频生成技术能使非专业用户自由生成音乐音频，通过尝试不同的文本提示生成音频；通过迭代比较，用户可以理解不同的文本提示和音频先验对生成结果的影响，并选择有利的音频先验，从而逐步达到松散规定的目标。

Jul, 2023

条件音频生成中的上下文提示编辑

在机器学习模型的部署过程中，分布偏移是一个主要的挑战，特别是在文本到音频生成领域。为了解决用户提示信息过于模糊导致生成音频质量下降的问题，本文提出了一个基于检索的上下文提示编辑框架，利用训练标题作为示范样本重新审视用户提示，进而增强了收集到的用户提示的音频质量。

Nov, 2023

PromptTTS 2: 使用文本提示描述和生成声音

基于 PromptTTS 2，本研究通过利用变异网络和生成提示管道来解决基于文本提示的文本到语音 (TTS) 方法的挑战，提供声音的多样性信息并生成高质量的文本提示，从而产生与文本提示一致且具有多样性的声音。

Sep, 2023

视频同步的文本到语音生成

近期，研究人员在文本转语音生成方面的关注度不断增加，本研究提出了一个名为 T2AV-Bench 的创新基准和一个简单而有效的视频对齐文本到音频生成模型 T2AV，通过整合视觉对齐的文本嵌入到生成模型中，通过时间多头注意力转换器从视频数据中提取和理解时间细微差异，并通过 Audio-Visual ControlNet 将时态视觉表示与文本嵌入精确地融合，进一步增强集成性，以确保视觉对齐和时间一致性。经过对 AudioCaps 和 T2AV-Bench 的广泛评估，T2AV 在视觉对齐和时间一致性上设立了新的标准。

Mar, 2024

可控文本朗读：基于文本描述的文本朗读系统

本研究开发了一个名为 PromptTTS 的语音合成系统，利用文本描述来指导语音的生成，从而实现了对语音风格的精确控制。与已有的控制语音风格的技术相比，PromptTTS 更加用户友好。实验表明，PromptTTS 可以生成具有精确风格控制和高质量的语音。

Nov, 2022

BATON：用人类偏好反馈对齐文本到音频模型

使用人类偏好反馈，通过 BATON 框架增强生成音频与文本提示之间的对齐，从而显著提高原始文本到音频模型的生成质量。

Feb, 2024

使用指令调整的 LLM 和潜在扩散模型生成文本到语音

本研究采用基于指令调整的大型语言模型 Flan-T5 作为文本编码器，通过使用基于声音压力级的声音混合来进行训练集增强，从而取得了比 AudioLDM 更好的结果，成为了生成文字描述音频的任务中的最佳选择。

Apr, 2023

Tango 2：通过直接偏好优化对齐基于扩散的文本到音频生成

研究使用 diffusion-DPO（直接偏好优化）损失在偏好数据集上对 Tango 文本到音频模型进行微调，以改进音频生成性能，并且在自动和手动评估指标上显示出优于 Tango 和 AudioLDM2 的效果。

Apr, 2024

DiffAVA: 带视觉对齐的个性化文本到音频生成

该文章提出了一种基于视觉对齐的新型个性化文本转语音生成方法 ——DiffAVA，它使用多头注意力变换器聚合视觉特征的时间信息，并利用双模残差网络将时间视觉表示与文本嵌入进行融合，然后采用对比学习目标来匹配视觉对齐的文本嵌入和音频特征。研究结果表明，DiffAVA 在视觉对齐的文本转音频生成方面具有竞争力的表现。

May, 2023