识别自我为中心物体交互，音频有多重要？

CVPRJun, 2019

识别自我为中心物体交互，音频有多重要？

How Much Does Audio Matter to Recognize Egocentric Object Interactions?

Alejandro Cartas, Jordi Luque, Petia Radeva, Carlos Segura, Mariella Dimiccoli

TL;DR本研究提出了一种音频模型，用于主体中心的动作识别，通过轻量化的架构，在视觉基础的标准数据集上取得了有竞争力的动词分类结果（34.26% 准确率）

Abstract

Sounds are an important source of information on our daily interactions with objects. For instance, a significant amount of people can discern the temperature of water that it is being poured just by using the sense of hearing. However, only a few works have explored the use of audio for the

audio model egocentric action recognition classification vision-based benchmark

发现论文，激发创造

看和听自我的行动：我们能学到多少？

本文提出了一种基于音频和视觉信息的厨房环境中的多模态方法，利用稀疏时间采样策略，通过音频、空间和时间流的后期融合，在 EPIC-Kitchens 数据集上实验表明多模态方法比单模态方法更好地提高了动作识别性能，特别是在动词分类上实现了 5.18% 的改进。

Oct, 2019

自我中心视听物体定位

本文提出了一个几何感知的时间聚合模块和级联特征增强模块来解决显式处理自我运动和消除视角移动对音视觉定位的影响，并通过自我监督学习开发 Epic Sounding Object 数据集评估模型，证明了我们的方法在以人为中心的视频中取得了最先进的对象定位性能，并可以推广到不同的音视觉场景。

Mar, 2023

利用弱标签数据进行大规模音频视觉学习

本文提出了一种音频视觉融合模型，该模型利用注意机制动态地结合单独的音频和视觉模型的输出来识别声音，实验证明该模型在音频场景分析和机器感知上比单模和多模融合模型具有更好的效果。

May, 2020

双耳声音的语义物体预测和空间声音超分辨率

本文介绍了一种基于双耳声音的声音制造对象的语义标记方法，利用跨模态蒸馏框架让视觉和听觉系统相互学习，形成多任务训练网络等手段提高系统的性能。

Mar, 2020

通过异步音视频整合发现落下的物体

通过结合声音和视觉信号与物理学知识，配备了摄像头和麦克风的机器人代理，使用三维虚拟环境研究多模式物体定位。通过生成大规模的数据集和开发一套根据模仿学习，强化学习和模块化计划进行分析，为解决这一挑战迈出了第一步。

Jul, 2022

观察，聆听和行动：走向音频视觉具身化导航

本文描述了一种音频 - 视觉导航方案，该方案基于移动智能机器人，利用可微卷积神经网络学习视觉感知器和声音感知器，以及动态路径规划器，实现在室内环境中通过音频和视觉数据计算从机器人当前位置到声源的最短路径。

Dec, 2019

SoundingActions：从自述的视觉记录视频中学习动作的声音

我们提出了一种新的自监督嵌入方法，通过从生动的一视角视频中学习动作的声音。我们的多模态对比一致编码嵌入（MC3）在所有模态对都匹配时增强音频、语言和视觉之间的关联性，而在某一个模态对不匹配时减弱关联性。我们的方法成功地发现了来自一视角视频中各类人类动作的声音，超过了多种最新的多模态嵌入技术在两个数据集（Ego4D 和 EPIC-Sounds）和多个跨模态任务上的表现。

Apr, 2024

EPIC-Fusion: 基于视听时空绑定的第一人称动作识别

提出了一种多模态融合架构，采用中层融合以及稀疏地对融合表示进行时间采样，将 RGB、Flow 和 Audio 三种模态进行融合，重点研究了多模态时间绑定，逐步改进，取得最先进的结果。

Aug, 2019

语义音视频导航

介绍了语义音频可视化导航的概念，提出了基于 Transformer 的模型用于处理语义 AudioGoal 任务，拥有持久的多模态记忆，通过学习语义、声音和视觉提示的关联性，可实现在声音事件停止后，仍能到达目标的导航能力。

Dec, 2020

Action2Sound: 环境感知的从自我为中心视频生成行动声音

提出了一种新颖的环境感知音频生成模型，用于根据视频内容生成符合语义和时间要求的音频；使用了特殊的音频条件机制，以在野外训练视频中学习将前景动作声音与环境背景声音解耦合。

Jun, 2024