看和听自我的行动：我们能学到多少？

ICCVOct, 2019

看和听自我的行动：我们能学到多少？

Seeing and Hearing Egocentric Actions: How Much Can We Learn?

Alejandro Cartas, Jordi Luque, Petia Radeva, Carlos Segura, Mariella Dimiccoli

TL;DR本文提出了一种基于音频和视觉信息的厨房环境中的多模态方法，利用稀疏时间采样策略，通过音频、空间和时间流的后期融合，在 EPIC-Kitchens 数据集上实验表明多模态方法比单模态方法更好地提高了动作识别性能，特别是在动词分类上实现了 5.18% 的改进。

Abstract

Our interaction with the world is an inherently multimodal experience. However, the understanding of human-to-object interactions has historically been addressed focusing on a single modality. In particular, a limited number of works have considered to integrate the visual and audio modalities for this purpose. In this work, we propose a →

multimodal approach egocentric action recognition audio and visual information sparse temporal sampling epic-kitchens dataset

发现论文，激发创造

识别自我为中心物体交互，音频有多重要？

本研究提出了一种音频模型，用于主体中心的动作识别，通过轻量化的架构，在视觉基础的标准数据集上取得了有竞争力的动词分类结果（34.26% 准确率）

Jun, 2019

EPIC-Fusion: 基于视听时空绑定的第一人称动作识别

提出了一种多模态融合架构，采用中层融合以及稀疏地对融合表示进行时间采样，将 RGB、Flow 和 Audio 三种模态进行融合，重点研究了多模态时间绑定，逐步改进，取得最先进的结果。

Aug, 2019

自我中心行为识别的多模态蒸馏

本文研究了如何在仅使用 RGB 帧作为输入的情况下，保持多模态方法的性能表现，进而采用多模型知识蒸馏框架来处理这个问题，并在输入视角数量减少的情况下展示了更高的性能。

Jul, 2023

从时间维度出发：多模态自我中心动作识别

利用时间上下文提高了自我中心视频识别能力的基于转换器的多模态模型。

Nov, 2021

自我中心视听物体定位

本文提出了一个几何感知的时间聚合模块和级联特征增强模块来解决显式处理自我运动和消除视角移动对音视觉定位的影响，并通过自我监督学习开发 Epic Sounding Object 数据集评估模型，证明了我们的方法在以人为中心的视频中取得了最先进的对象定位性能，并可以推广到不同的音视觉场景。

Mar, 2023

SoundingActions：从自述的视觉记录视频中学习动作的声音

我们提出了一种新的自监督嵌入方法，通过从生动的一视角视频中学习动作的声音。我们的多模态对比一致编码嵌入（MC3）在所有模态对都匹配时增强音频、语言和视觉之间的关联性，而在某一个模态对不匹配时减弱关联性。我们的方法成功地发现了来自一视角视频中各类人类动作的声音，超过了多种最新的多模态嵌入技术在两个数据集（Ego4D 和 EPIC-Sounds）和多个跨模态任务上的表现。

Apr, 2024

多模式教师教授的学生为优秀的动作识别者

本文致力于通过多模态蒸馏的方式，提高仅以 RGB 帧为输入的多模态方法在行动识别方面的性能。实验表明，该方法在标准 / 组合行动识别中均明显优于基线 RGB 模型以及联合训练多种模态的方法。

Oct, 2022

由音频叙述引导的弱监督行为检测

提出了一种基于多模态学习和叙述监督的视频检测模型，可以从嘈杂的音频叙述中学习动作检测，从而降低标注的费用。

May, 2022

观察，聆听和行动：走向音频视觉具身化导航

本文描述了一种音频 - 视觉导航方案，该方案基于移动智能机器人，利用可微卷积神经网络学习视觉感知器和声音感知器，以及动态路径规划器，实现在室内环境中通过音频和视觉数据计算从机器人当前位置到声源的最短路径。

Dec, 2019

工业场景中的主体视角 RGB + 深度行为识别

我们的研究集中在认识行为，特别是来自以自我为中心视角的行为，并结合深度模态从工业环境中识别行为。针对现实世界中多模态行为发生的困难，我们提出了一种训练策略，并通过后期融合来结合来自每种模态的预测，这在 MECCANO 数据集上明显优于先前的工作，并在 ICIAP 2023 的多模态行为识别挑战中获得第一名。

Sep, 2023