- ManiWAV: 从野外的视听数据学习机器人操作
通过收集具有音频和视觉反馈的野外人类示范数据,以及相应的策略接口,本文介绍了 ManiWAV: 一种用于直接从示范中学习机器人操作策略的 “手中的耳朵” 数据采集设备,并通过四个接触丰富的操作任务展示了系统的能力。
- 序列到序列多模态语音修复
该研究提出了一种新颖的序列到序列模型,通过编码器 - 解码器架构的方式利用视觉信息来修复音频信号,证明了多模态方法在语音修复中的有效性。
- 音乐类型分类:训练一个 AI 模型
通过使用机器学习算法和从音频信号提取的特征进行音乐流派分类,本研究旨在评估机器学习模型在流派分类中的鲁棒性并进行结果比较。
- 可听地图用于音频分类器
通过使用预训练的分类器顶部的解码器生成二进制掩码,突出显示输入音频的相关部分,这种后期诠释方法通过最大化音频的屏蔽部分上的分类器决策的可信度并最小化屏蔽部分的模型输出的概率来减小深度学习模型复杂性为音频信号的诠释提供了准确可靠且易于理解的方 - 零样本无监督的基于文本的音频编辑使用 DDPM 逆转
使用预训练的大型模型以零样本方式编辑信号已在图像领域取得快速发展,而这一浪潮尚未触及音频领域。本文探讨了两种用于音频信号的零样本编辑技术,利用预训练扩散模型上的 DDPM 反演。第一种技术从图像领域引入,允许基于文本进行编辑。第二种方法是一 - PG-Video-LLaVA:像素定位大型视频 - 语言模型
Video-LLaVA 是第一个具有像素级定位能力且通过将音频转写为文本来丰富视频上下文理解的大型多模态模型,在视频中能够根据用户指令对对象进行时空定位,并在生成和问答任务中取得优异结果。
- 语音与文本联合理解
通过整合悄悄话作为感知模块和 LLaMA 作为推理模块,LTU-AS 机器学习模型可以同时识别和共同理解口语文本、语音相声和非语音音频事件 - 几乎可以从音频信号中感知到的一切。
- 全向音视频信号的感知质量评估
本研究首次建立了一个大规模的音视频品质评估数据集,用于评估全向视频的音视频质量。通过多模态融合策略,设计了三种基准方法来评估全向音视频的品质,并验证了融合方法在全向体验评估中的有效性。
- 基于知识的多模式音乐相似度
本研究旨在开发一种可解释的音乐相似性分类系统,通过结合符号和音频内容,提高音乐检索、推荐和分析的效率和精度。
- 听到的就是所看到的:从图像质量度量中获得音频质量指标
本文研究了使用最新的图像感知度量来评估音频信号的可行性,并通过将其表示为声谱图来进行评估。我们发现这种方法鼓励人们挖掘听觉和视觉通路的相似之处,并且还对一些基本度量进行了定制,以解决音频信号的特殊性。使用音乐数据集对自定义定制的度量和几个基 - 视觉语音识别中的多时序唇音记忆
本文提出了一种利用多时间点音频记忆的视觉语音识别方法,将音频信号与唇部运动相结合,实践证明此方法在两个公共视觉语音识别数据集上取得了最新技术表现。
- AADiff: 音频对齐视频生成与文本到图像扩散
本文介绍了一种新的 T2V 框架,通过引入音频信号来控制时间动态,从而使传统的 T2I 扩散生成可以与音频对齐的视频。我们提出了基于音频的区域编辑和信号平滑方法,以在视频综合的时间灵活性和一致性之间取得良好平衡,并通过实验验证了方法的有效性 - HyperSound: 使用超网络生成音频信号的隐式神经表示
本研究提出了一种基于超网络元学习的方法,用于生成未训练音频信号的隐式神经表示(INRs),并展示了其重建声波信号的优秀性能。
- WaveFake: 一份数据集,用以方便音频 Deepfake 检测
本文介绍了一些用于分析音频信号的常见信号处理技术。我们提供了一个新的数据集,并采用了两个基线模型,以便进一步研究深层次的生成建模在音频信号领域的应用。
- 2021 年零资源语音基准:自监督口语建模的度量和基线
本文介绍了一项新的无监督任务:口语语言建模并给出了 Zero Resource Speech Benchmark 2021,使用 4 个黑盒子零炮弹指标对 4 个语言层面的学习模型的质量进行测量,包括语音、词汇、语法和语义,并基于 CPC、 - 基于端到端神经变形器的口语理解
本论文介绍了一种基于端到端的神经网络转换器,可以在不需要中间层令牌预测架构的情况下,在音频信号中预测嵌入式变长域、意图和插槽向量,可高效提取所述话语所隐含的语义上下文。
- 深度无监督鼓转录
DrummerNet 是一种无监督学习的鼓乐转录系统,无需基准转录,利用深度神经网络的数据可扩展性从大规模未标记的数据集中进行学习,该方法通过学习使音频信号的距离最小化,从而完成无需基准转录的转录任务。实验表明,与许多其他最近的有监督和无监 - 通过对音频嵌入进行对抗学习映射关系实现完全无监督的音素识别
本文提出一种利用生成对抗网络进行无监督音素识别的方法,并取得了 36% 的准确率。
- STFT 幅度重构相位的非迭代方法
提出了一种基于 STFT 幅值箴言相位的非迭代方法,可快速构建相位。它适用于长音频信号,并可用于迭代相位重构算法的初始化。与现有算法进行了详细比较。
- 相似图形修复长音频片段
该研究提出了一种针对音频信号中长时间数据丢失的新方法,基于图表达时间持久的频谱相似度来遮盖信号缺陷,通过优化方案和平滑插入到丢失或失真的信号区域,该算法在多种真实世界音乐信号测试中表现出了极具前景的结果。