听取未来：音视频自我中心注视预测

May, 2023

听取未来：音视频自我中心注视预测

Listen to Look into the Future: Audio-Visual Egocentric Gaze Anticipation

Bolin Lai, Fiona Ryan, Wenqi Jia, Miao Liu, James M. Rehg

TL;DR本文介绍了一种利用两种视觉和听觉模态进行 egocentric 注视预测的模型，为此我们提出了一种对比时空可分的融合方法，并采用对比损失进行表示学习。我们使用 Ego4D 和 Aria 等数据集进行了广泛的实验验证，并在先前的最新方法上进行了改进。此外，我们提供了可视化来显示注视预测结果并提供了有关音频 - 视觉表示学习的其他见解。

Abstract

egocentric gaze anticipation serves as a key building block for the emerging capability of augmented reality. Notably, gaze behavior is driven by both visual cues and audio signals during daily activities. Motiva

egocentric gaze anticipation augmented reality audio-visual correlation csts fusion approach state-of-the-art methods

发现论文，激发创造

自我中心视听物体定位

本文提出了一个几何感知的时间聚合模块和级联特征增强模块来解决显式处理自我运动和消除视角移动对音视觉定位的影响，并通过自我监督学习开发 Epic Sounding Object 数据集评估模型，证明了我们的方法在以人为中心的视频中取得了最先进的对象定位性能，并可以推广到不同的音视觉场景。

Mar, 2023

语音视觉对话图：从自我中心视角到他人中心视角

我们提出了一个统一的多模态、多任务框架 —— 音频视觉对话关注（Av-CONV），用于联合预测第一人称视角下的摄像机佩戴者及视频中所有其他社交伙伴的对话行为，我们通过自注意机制定制化建模了跨时间、跨主体和跨模态的表征。通过在具有多说话者和多对话情景的具有挑战性的第一人称视角视频数据集上的实验证明了我们方法的优越性能，并进行了详细的消融研究来评估模型中每个组件的贡献。

Dec, 2023

会话情景中的多模态注视跟踪

使用音频线索，本文在对话场景中提出了一种基于多模式的凝视追踪框架，利用音频与嘴唇之间的关联来增强场景图像并估计凝视候选者，采用多层感知机将主题与候选者进行匹配作为分类任务，通过引入图像和音频的对话数据集进行评估，表明我们的方法在凝视追踪任务中具有显著优势，并促进了多模式凝视追踪估计的更多研究。

Nov, 2023

从视听一致性中学习自我中心视频的空间特征

基于自监督方法，我们提出了一种学习表示的方法，基于主观视角视频中的空间音频 - 视觉对应关系。我们利用掩蔽自编码框架合成掩蔽的双耳音频，通过音频和视觉的协同作用来学习有用的空间关系。我们利用预先训练的特征来解决在社交场景中需要空间理解的两个下游视频任务：活跃说话者检测和空间音频去噪。通过大量实验证明，我们的特征足够通用，能够在两个公开具有挑战性的主观视角视频数据集 EgoCom 和 EasyCom 上改进多个最先进的基准模型。

Jul, 2023

从音频 - 视觉空间对齐中学习表示

介绍了一个针对学习自我监督前置任务的音频视频表示方法，通过引入 transformer 架构和空间对齐技术，提高了网络的感知和学习效率，结果表明，该方法在诸如音频视觉对应、空间对齐、动作识别、视频语义分割等多项任务中表现出良好的性能。

Nov, 2020

协同双重注意力的音视频语音增强与面部线索

通过利用人脸线索，特别是唇部区域以外的面部区域，来提高语音视觉增强的鲁棒性。

Nov, 2023

自我注意力视听导航

本文提出了一种叫做 FSAAVN 的端到端框架，通过自我关注模块，实现了上下文感知的视听融合策略，学习追逐一个移动的音频目标。实验证明，与现有技术相比，FSAAVN 在视觉模态、视听编码器和融合模式的选择方面表现出更高的优越性。

Oct, 2022

时序自监督的音视频对比学习

本文提出了一种自我监督学习方法，用于学习视频的表示，结合了 RGB 帧和相关的音频，通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置，并提出了新的对比目标。

Feb, 2023

自我中心视听噪声抑制

该论文研究了对自我中心视角视频的音频 - 视觉抑制，发现视觉信息有助于噪声抑制，提出了多任务学习框架来同时优化音频 - 视觉噪声抑制和基于视频的声音事件检测，并表明该模型在不同的噪声类型和信噪比下均比传统的音频模型更具有优势。

Nov, 2022

揭示视听早期融合变压器的强大力量：通过遮蔽建模实现密集交互

本文介绍了使用掩模重建框架和基于注意力的融合模块来训练早期融合的音频 - 视觉编码器，以实现高效深度集成的音频 - 视觉模型。实验证明该方法在音频事件分类、视觉声音定位、音频分离和音频 - 视觉分割方面表现优越，极大地推动了早期融合架构的应用。

Dec, 2023