可听地图用于音频分类器
提供了一个轻量级的解决方案,通过利用 CLIP、CLAP 和 AudioLDM 等基础模型,提出了一种简单而有效的 V2A-Mapper 机制来解决视觉到音频生成问题,并在两个 V2A 数据集上进行了客观和主观评估,结果表明我们的方法相对于目前的最先进方法在 FD 和 CS 方面分别取得了 53% 和 19% 的改进,参数减少了 86%。
Aug, 2023
使用多模式语言模型(MLLMs)时,音频 MLLM 在生成音频标题时不能完全利用其 LLM 的基于文本的推理能力,可能是因为 MLLM 将听觉和文本信息分别表示,从而切断了 LLM 到音频编码器的推理路径。
Jun, 2024
本文介绍了一种基于潜在空间的 Text-to-audio(TTA)系统 AudioLDM,它使用对比语音 - 语言预训练(CLAP)潜在信息学习连续音频表示,并以文本嵌入作为采样条件,从而在生成质量和计算效率方面具有优势,实测效果接近官方记录,并可以进行零 - shot 文本引导音频操作,如风格转移。
Jan, 2023
机器听觉的研究聚焦于开发从音频信号中提取相关信息的技术,本文强调了在获取和标注具有上下文的数据方面的重要性,提出了一种综合的数据中心框架用于机器听觉项目,在资源受限的情况下实现配置录音节点、数据库结构和标注预算优化,通过使用专家标注员而非众包实现主动学习,以解决处理大规模、不断增长的数据集带来的计算资源和内存限制等问题。
May, 2024
我们通过增加自然语言标签和相应的音频信号处理操作,使用大型语言模型提供了一个高质量的训练数据集,该数据集在文本和音频相关模型的基准测试中提供了多样化且更好对齐的示例,从而改善了模型的性能。
May, 2024
AudioLM 是一个高质量的音频生成框架,它通过将输入音频映射为离散令牌序列,并在该表示空间中将音频生成视为一种语言建模任务。我们提出了一种混合标记方案,以实现重建质量和长期结构两个目标,并通过大量的音频波形语料库进行了训练,使其可以生成自然,连贯的音频持续时间。不需要文件、笔录或注释,同时对未见过的讲话者也可以维持其语法和语义合理的音频持续时间。此外,我们还展示了如何通过生成连贯的钢琴音乐持续时间,超越了语音。
Sep, 2022
为了解决情感识别中的单模态方法在捕捉真实世界情感表达复杂性方面的局限性,我们提出了 MERR 数据集和 Emotion-LLaMA 模型,通过整合音频、视觉和文本输入,显著提高情感识别能力,并在 evaluations 中取得了优异的成绩。
Jun, 2024
现有的大型音频语言模型在集成音频感知能力方面扩展了传统大型语言模型的功能,对其性能在各种任务上进行了主要的评估,但忽视了它们的可靠性,特别是与对象幻觉等问题相关的可靠性。本研究引入了评估公开可用的大型音频语言模型的对象幻觉程度的方法。研究发现,大型音频语言模型在理解音频内容方面与专用音频字幕模型相媲美,但在回答鉴别性问题上遇到困难,尤其是要求识别音频剪辑中特定对象声音存在的问题。这个限制凸显了当前大型音频语言模型的一个关键弱点:对于鉴别性查询的理解不足。此外,我们还探索了提示工程在提高大型音频语言模型在鉴别性问题上的性能方面的潜力。
Jun, 2024
我们提出了一种用于文本到音频生成的简单的检索增强方法,通过使用检索到的音频文本数据对 TTA 模型的学习进行指导,从而改善了 AudioLDM 模型在长尾数据集上的性能,在 AudioCaps 数据集上,我们的改进模型 Re-AudioLDM 以巨大的优势超越了现有方法,能够生成逼真的音频并具备在复杂场景、罕见音频类别甚至未见过音频类型的潜力。
Sep, 2023
Video-LLaMA 是一种多模态框架,通过将预训练的视觉和音频编码器与预训练的大型语言模型结合,实现对视频内容的理解,具有捕捉视觉场景中的时间变化和整合音频 - 视觉信号等优势,因此被视为具有潜力的音视频 AI 助手原型。
Jun, 2023