自我中心视听物体定位
该论文研究了对自我中心视角视频的音频 - 视觉抑制,发现视觉信息有助于噪声抑制,提出了多任务学习框架来同时优化音频 - 视觉噪声抑制和基于视频的声音事件检测,并表明该模型在不同的噪声类型和信噪比下均比传统的音频模型更具有优势。
Nov, 2022
本文介绍了一种利用两种视觉和听觉模态进行 egocentric 注视预测的模型,为此我们提出了一种对比时空可分的融合方法,并采用对比损失进行表示学习。我们使用 Ego4D 和 Aria 等数据集进行了广泛的实验验证,并在先前的最新方法上进行了改进。此外,我们提供了可视化来显示注视预测结果并提供了有关音频 - 视觉表示学习的其他见解。
May, 2023
本文提出了一种基于音频和视觉信息的厨房环境中的多模态方法,利用稀疏时间采样策略,通过音频、空间和时间流的后期融合,在 EPIC-Kitchens 数据集上实验表明多模态方法比单模态方法更好地提高了动作识别性能,特别是在动词分类上实现了 5.18% 的改进。
Oct, 2019
本研究旨在利用一种新的方法,即多态输入的注意力循环网络,来描述自我中心影像序列的故事情节,并发布了第一个自我中心影像序列描述数据集,该方法的表现优于传统的注意力编码器 - 解码器方法。
Apr, 2017
从第一人称视角的视频中理解人类行为面临着重要挑战。本文提出了 EgoInstructor 模型,它能够自动检索语义相关的第三人称指导视频,以增强第一人称视频的视频字幕生成。通过对不同规模的第一人称和第三人称数据集进行自动配对来训练跨视角检索模块,并通过新颖的 EgoExoNCE 损失函数将第一人称和第三人称视频特征与描述相似行为的共享文本特征对齐。通过大量实验证明,跨视角检索模块在七个基准上表现出优越性能。借助第三人称视频作为参考,EgoInstructor 在第一人称视频字幕生成方面展现了显著的改进。
Jan, 2024
我们提出了一个统一的多模态、多任务框架 —— 音频视觉对话关注(Av-CONV),用于联合预测第一人称视角下的摄像机佩戴者及视频中所有其他社交伙伴的对话行为,我们通过自注意机制定制化建模了跨时间、跨主体和跨模态的表征。通过在具有多说话者和多对话情景的具有挑战性的第一人称视角视频数据集上的实验证明了我们方法的优越性能,并进行了详细的消融研究来评估模型中每个组件的贡献。
Dec, 2023
该论文提出了一种利用未标记的音频 - 视觉数据进行物体定位的系统,使用自监督方法来实现跨模态的语音定位,其在声学车辆跟踪数据集上表现卓越并可用于光照条件不佳的车辆视觉定位。
Oct, 2019
该研究旨在从自我中心视角预测人的物体操纵行为的目标位置。他们提出了一个包含 RGB-D 和 IMU 流的大型多模态数据集,并设计了使用递归神经网络的基线方法,并进行了各种消融研究以验证其有效性,从而证明该新任务值得进一步学习。
Mar, 2022