地理标记音视航拍场景识别的跨任务传递
本文提出了一种音频视觉融合模型,该模型利用注意机制动态地结合单独的音频和视觉模型的输出来识别声音,实验证明该模型在音频场景分析和机器感知上比单模和多模融合模型具有更好的效果。
May, 2020
本论文介绍了场景感知对话任务,通过视频和音频研究场景,并在对话历史中利用上下文线索,以回答关于场景的问题;同时提出了 AVSD 数据集,并通过多项定量和定性指标评估了基础模型的表现,结果表明模型必须充分利用所有可用输入(视频、音频、问题和对话历史)才能在该数据集上取得最佳表现。
Jan, 2019
本文提出了一种基于数据驱动学习的音视频感知对话基准方法,采用注意力机制从海量传感器中区分实用信号和干扰信号,实验结果表明此方法在音视频感知数据集中性能超过现有最先进方法 20% 以上。
Apr, 2019
该研究介绍了一种名为 MAVREC 的用于航拍识别的视频数据集,通过对地面摄像机和无人机摄像机的同步场景记录,以及包含标注边界框的图像,实现了航拍识别的超越性预训练策略。
Dec, 2023
本论文探讨了以话题作为对话背景,利用多模态注意力和音视频定位技术的方法来构建端到端的自然语言对话系统,结合使用 end-to-end 音频分类卷积神经网络 AclNet,以音视频场景感知任务数据集 AVSD 进行测试,并提出了改进方案算法,优于现有基线系统。
Dec, 2019
该研究提出了一种名为 OneAVM 的联合学习框架,该框架可以用于音频 - 视频源定位、分离和识别任务,其中共享的音频 - 视频编码器和任务特定的解码器是通过三个目标进行训练,包括本地化的音频 - 视觉对应丢失、视觉源分离和选择和用于强化视觉特征分离和定位的像素空间混合。经过在多个数据集上的广泛实验,证明了 OneAVM 的有效性,并在音频 - 视觉源定位、分离和最近邻识别任务之间展现了强大的正向转移。
May, 2023
本文提出了一个音频 - 视频声音事件本地化和检测(SELD)任务,它使用多通道音频和视频信息来估计目标声音事件的时间激活和 DOA。音频 - 视觉 SELD 系统可以使用来自麦克风阵列和音频 - 视觉对应的信号来检测和定位声音事件,并介绍了一个音频 - 视觉数据集,其中包含了用于监测人员活动和声音事件发生的多通道音频数据记录。
Jun, 2023
通过引入多模式变压器架构来深度融合和聚合音频 - 视觉特征,我们提出了一种新颖的音频感知查询增强转换器 (AuTR),用于解决音频 - 视觉分割任务。实验结果表明,我们的方法在多声音和开放场景中具有更好的普适性和性能优势。
Jul, 2023
通过引入结构对齐和语义感知的方法,本文提出了一种新的框架来解决航空图像到地面图像合成的挑战,通过将航空图像的特征与地面布局对齐,实现了复杂地理结构的重建,同时通过引入预训练分割网络,通过计算不同类别的损失并平衡它们,实现了跨类别综合样式的生成。通过与现有方法的比较和削减研究,本方法在质量和数量上显示出了有效性。
Aug, 2023