语音视觉对话图：从自我中心视角到他人中心视角

Dec, 2023

语音视觉对话图：从自我中心视角到他人中心视角

The Audio-Visual Conversational Graph: From an Egocentric-Exocentric Perspective

Wenqi Jia, Miao Liu, Hao Jiang, Ishwarya Ananthabhotla, James M. Rehg...

TL;DR我们提出了一个统一的多模态、多任务框架 —— 音频视觉对话关注（Av-CONV），用于联合预测第一人称视角下的摄像机佩戴者及视频中所有其他社交伙伴的对话行为，我们通过自注意机制定制化建模了跨时间、跨主体和跨模态的表征。通过在具有多说话者和多对话情景的具有挑战性的第一人称视角视频数据集上的实验证明了我们方法的优越性能，并进行了详细的消融研究来评估模型中每个组件的贡献。

Abstract

In recent years, the thriving development of research related to egocentric videos has provided a unique perspective for the study of conversational interactions, where both visual and audio signals play a crucial role. While most prior work focus on learning about behaviors that directly involve the camera wearer, we introduce the Ego-Exocentric Conversatio

egocentric videos conversational interactions multi-modal multi-task framework audio-visual conversational attention self-attention mechanism

发现论文，激发创造

听取未来：音视频自我中心注视预测

本文介绍了一种利用两种视觉和听觉模态进行 egocentric 注视预测的模型，为此我们提出了一种对比时空可分的融合方法，并采用对比损失进行表示学习。我们使用 Ego4D 和 Aria 等数据集进行了广泛的实验验证，并在先前的最新方法上进行了改进。此外，我们提供了可视化来显示注视预测结果并提供了有关音频 - 视觉表示学习的其他见解。

May, 2023

自我中心视听物体定位

本文提出了一个几何感知的时间聚合模块和级联特征增强模块来解决显式处理自我运动和消除视角移动对音视觉定位的影响，并通过自我监督学习开发 Epic Sounding Object 数据集评估模型，证明了我们的方法在以人为中心的视频中取得了最先进的对象定位性能，并可以推广到不同的音视觉场景。

Mar, 2023

从自我中心视频中识别对话伙伴

基于现有的计算机视觉数据集和任务，本研究侧重于从自我的视角识别会话伙伴，并描述了一个合适的数据集，该数据集包含了 69 小时的多样化多对话场景的自我的视频，对每个个体分配了一个或多个对话伙伴，为我们的计算机视觉任务提供了标签。通过这个数据集，我们可以开发和评估用于识别会话伙伴和相关方法的算法。该研究为自我的视频分析在社交环境中的令人兴奋的进展做出贡献。

Jun, 2024

检索增强的视觉第一人称视频字幕生成

从第一人称视角的视频中理解人类行为面临着重要挑战。本文提出了 EgoInstructor 模型，它能够自动检索语义相关的第三人称指导视频，以增强第一人称视频的视频字幕生成。通过对不同规模的第一人称和第三人称数据集进行自动配对来训练跨视角检索模块，并通过新颖的 EgoExoNCE 损失函数将第一人称和第三人称视频特征与描述相似行为的共享文本特征对齐。通过大量实验证明，跨视角检索模块在七个基准上表现出优越性能。借助第三人称视频作为参考，EgoInstructor 在第一人称视频字幕生成方面展现了显著的改进。

Jan, 2024

Ego-Exo：将第三人称视频的视觉表示转移到第一人称视频

本文提出使用大规模第三人称视频数据集进行预训练的以自我为中心的视频模型方法，通过在第三人称视频中发现预测自我特定属性的潜在信号，并将其作为知识蒸馏损失融入模型预训练中，在精细调节进行自我中心的活动识别时表现出最佳表现，取得 Charades-Ego 和 EPIC-Kitchens-100 的最新成果。

Apr, 2021

从外向内视角理解跨视角动作识别

提出了一种跨视角学习的方法，通过分析不同视角下的摄像机位置并引入基于几何约束的注意力机制，以加强深度学习模型在个人视频中的动作识别能力。实验证明这种方法在标准的个人视频动作识别基准测试中表现良好，并达到了最先进的性能。

May, 2023

Exo2EgoDVC：使用网络教育视频进行以自我为中心的程序性活动的密集视频标题生成

提出了一种用于稠密视频字幕的跨视图知识传递的新型基准，从具有外视图的网页教学视频调整模型以适应内视图领域。

Nov, 2023

将自己置身于你的位置：解除来自非中心视频的以自我为中心的视角

研究探讨外心 - 内心跨视角转换，提出一种名为 Exo2Ego 的生成框架，将转换过程分解为高层次结构转换和基于扩散的像素级幻觉，为未来进一步的发展提供了一个综合的外心 - 内心跨视角转换基准，并通过实验证实了 Exo2Ego 在生成仿真质量和泛化能力方面优于其他基准。

Mar, 2024

Chat2Map：多自我对话中高效的场景映射

利用多个自我视角的、来自多方的对话视频，结合深度强化学习的方法，高效地构建出未知 3D 环境的地图，达到了出色的性价比，优于以往最先进的方法。

Jan, 2023

基于时间连接序列的自我中心视频描述

本研究旨在利用一种新的方法，即多态输入的注意力循环网络，来描述自我中心影像序列的故事情节，并发布了第一个自我中心影像序列描述数据集，该方法的表现优于传统的注意力编码器 - 解码器方法。

Apr, 2017