自我中心视听物体定位

CVPRMar, 2023

Egocentric Audio-Visual Object Localization

Chao Huang, Yapeng Tian, Anurag Kumar, Chenliang Xu

TL;DR本文提出了一个几何感知的时间聚合模块和级联特征增强模块来解决显式处理自我运动和消除视角移动对音视觉定位的影响，并通过自我监督学习开发 Epic Sounding Object 数据集评估模型，证明了我们的方法在以人为中心的视频中取得了最先进的对象定位性能，并可以推广到不同的音视觉场景。

Abstract

Humans naturally perceive surrounding scenes by unifying sound and sight in a first-person view. Likewise, machines are advanced to approach human intelligence by learning with multisensory inputs from an egocentric perspective. In this paper, we explore the challenging →

egocentric audio-visual object localization temporal aggregation geometry transformation epic sounding object dataset

发现论文，激发创造

自我中心视听噪声抑制

该论文研究了对自我中心视角视频的音频 - 视觉抑制，发现视觉信息有助于噪声抑制，提出了多任务学习框架来同时优化音频 - 视觉噪声抑制和基于视频的声音事件检测，并表明该模型在不同的噪声类型和信噪比下均比传统的音频模型更具有优势。

Nov, 2022

听取未来：音视频自我中心注视预测

本文介绍了一种利用两种视觉和听觉模态进行 egocentric 注视预测的模型，为此我们提出了一种对比时空可分的融合方法，并采用对比损失进行表示学习。我们使用 Ego4D 和 Aria 等数据集进行了广泛的实验验证，并在先前的最新方法上进行了改进。此外，我们提供了可视化来显示注视预测结果并提供了有关音频 - 视觉表示学习的其他见解。

May, 2023

看和听自我的行动：我们能学到多少？

本文提出了一种基于音频和视觉信息的厨房环境中的多模态方法，利用稀疏时间采样策略，通过音频、空间和时间流的后期融合，在 EPIC-Kitchens 数据集上实验表明多模态方法比单模态方法更好地提高了动作识别性能，特别是在动词分类上实现了 5.18% 的改进。

Oct, 2019

利用第一人称视角装置进行自我中心视场定位

使用第一人称视角设备拍摄的图像、视频和传感器数据来实现自我的视场定位，并进行图像和视频匹配，最后用于增强现实、事件理解和社交交互研究。

Oct, 2015

基于时间连接序列的自我中心视频描述

本研究旨在利用一种新的方法，即多态输入的注意力循环网络，来描述自我中心影像序列的故事情节，并发布了第一个自我中心影像序列描述数据集，该方法的表现优于传统的注意力编码器 - 解码器方法。

Apr, 2017

基于 3D 地图的自我中心活动识别及定位

提出了一种基于深度概率模型的方法，结合视角与环境信息，实现对运动轨迹和动作识别的 3D 场景理解与定位

May, 2021

检索增强的视觉第一人称视频字幕生成

从第一人称视角的视频中理解人类行为面临着重要挑战。本文提出了 EgoInstructor 模型，它能够自动检索语义相关的第三人称指导视频，以增强第一人称视频的视频字幕生成。通过对不同规模的第一人称和第三人称数据集进行自动配对来训练跨视角检索模块，并通过新颖的 EgoExoNCE 损失函数将第一人称和第三人称视频特征与描述相似行为的共享文本特征对齐。通过大量实验证明，跨视角检索模块在七个基准上表现出优越性能。借助第三人称视频作为参考，EgoInstructor 在第一人称视频字幕生成方面展现了显著的改进。

Jan, 2024

语音视觉对话图：从自我中心视角到他人中心视角

我们提出了一个统一的多模态、多任务框架 —— 音频视觉对话关注（Av-CONV），用于联合预测第一人称视角下的摄像机佩戴者及视频中所有其他社交伙伴的对话行为，我们通过自注意机制定制化建模了跨时间、跨主体和跨模态的表征。通过在具有多说话者和多对话情景的具有挑战性的第一人称视角视频数据集上的实验证明了我们方法的优越性能，并进行了详细的消融研究来评估模型中每个组件的贡献。

Dec, 2023

利用立体声音进行自监督的移动车辆跟踪

该论文提出了一种利用未标记的音频 - 视觉数据进行物体定位的系统，使用自监督方法来实现跨模态的语音定位，其在声学车辆跟踪数据集上表现卓越并可用于光照条件不佳的车辆视觉定位。

Oct, 2019

自我中心的三维动作目标预测

该研究旨在从自我中心视角预测人的物体操纵行为的目标位置。他们提出了一个包含 RGB-D 和 IMU 流的大型多模态数据集，并设计了使用递归神经网络的基线方法，并进行了各种消融研究以验证其有效性，从而证明该新任务值得进一步学习。

Mar, 2022