将自己置身于你的位置：解除来自非中心视频的以自我为中心的视角

Mar, 2024

将自己置身于你的位置：解除来自非中心视频的以自我为中心的视角

Put Myself in Your Shoes: Lifting the Egocentric Perspective from Exocentric Videos

Mi Luo, Zihui Xue, Alex Dimakis, Kristen Grauman

TL;DR研究探讨外心 - 内心跨视角转换，提出一种名为 Exo2Ego 的生成框架，将转换过程分解为高层次结构转换和基于扩散的像素级幻觉，为未来进一步的发展提供了一个综合的外心 - 内心跨视角转换基准，并通过实验证实了 Exo2Ego 在生成仿真质量和泛化能力方面优于其他基准。

Abstract

We investigate exocentric-to-egocentric cross-view translation, which aims to generate a first-person (egocentric) view of an actor based on a video recording that captures the actor from a third-person (exocentric) perspective. To this end, we propose a →

exocentric-to-egocentric cross-view translation generative framework cross-view correspondence hand layout prior exo-to-ego cross-view translation benchmark

发现论文，激发创造

Ego-Exo：将第三人称视频的视觉表示转移到第一人称视频

本文提出使用大规模第三人称视频数据集进行预训练的以自我为中心的视频模型方法，通过在第三人称视频中发现预测自我特定属性的潜在信号，并将其作为知识蒸馏损失融入模型预训练中，在精细调节进行自我中心的活动识别时表现出最佳表现，取得 Charades-Ego 和 EPIC-Kitchens-100 的最新成果。

Apr, 2021

Exo2EgoDVC：使用网络教育视频进行以自我为中心的程序性活动的密集视频标题生成

提出了一种用于稠密视频字幕的跨视图知识传递的新型基准，从具有外视图的网页教学视频调整模型以适应内视图领域。

Nov, 2023

跨视角外心到本体中心视频合成

本篇论文提出了一种基于 Bi-directional Spatial Temporal Attention Fusion Generative Adversarial Network（STA-GAN）的方法，通过多阶段处理，将 Exocentric view 视频序列转换为 Egocentric 视角，通过在时空注意力融合模块和双重鉴别器的作用下产生高质量的合成视频。在 Side2Ego 和 Top2Ego 数据集上的实验证明，该方法优于现有方法。

Jul, 2021

从外向内视角理解跨视角动作识别

提出了一种跨视角学习的方法，通过分析不同视角下的摄像机位置并引入基于几何约束的注意力机制，以加强深度学习模型在个人视频中的动作识别能力。实验证明这种方法在标准的个人视频动作识别基准测试中表现良好，并达到了最先进的性能。

May, 2023

检索增强的视觉第一人称视频字幕生成

从第一人称视角的视频中理解人类行为面临着重要挑战。本文提出了 EgoInstructor 模型，它能够自动检索语义相关的第三人称指导视频，以增强第一人称视频的视频字幕生成。通过对不同规模的第一人称和第三人称数据集进行自动配对来训练跨视角检索模块，并通过新颖的 EgoExoNCE 损失函数将第一人称和第三人称视频特征与描述相似行为的共享文本特征对齐。通过大量实验证明，跨视角检索模块在七个基准上表现出优越性能。借助第三人称视频作为参考，EgoInstructor 在第一人称视频字幕生成方面展现了显著的改进。

Jan, 2024

从第三人称到第一人称：综合与检索的数据集与基线模型

本研究介绍了包含同时录制自我中心和外部中心视频的两个数据集（合成和自然 / 真实），首先使用条件生成对抗网络从外部中心领域合成自我中心领域的图像。其次，我们解决了跨视图检索问题，并通过从合成域到自然 / 真实域的域适应来提高性能。

Dec, 2018

意图驱动的个体到外部视频生成

提出了一种基于行动意图的自我转他视视频生成框架（IDE），通过利用包括人类运动和动作描述的行动意图作为视角无关表示指导视频生成，保留了内容和动作的一致性。

Mar, 2024

利用并行生成对抗网络将视角从外部到内部转变为图像

本研究提出了一种基于 Parallel Generative Adversarial Network (P-GAN) 和新的交叉环路损失 Cross-cycle Loss 以及新的上下文特征损失 Contextual Feature Loss 的方法来生成第一人称视角的图像，实验证明该方法在 Exo-Ego 数据集上优于现有的方法。

Feb, 2020

通过时间对齐从未成对的自我 - 外在视频中学习细粒度视角不变表示

本文提出了一种 AE2 的自我监督嵌入方法，专门用于从 Ego-Exo 上下文的视角中学习不变的微观动作特征，并且在细粒度的视频理解任务中均表现出优异的性能。

Jun, 2023

EgoExo-Fitness: 走向自视角和他视角的全身动作理解

我们呈现了 EgoExo-Fitness，这是一个全新的全身动作理解数据集，通过同步的自主和固定的第三人称摄像机记录了健身序列视频。与现有的全身动作理解数据集相比，EgoExo-Fitness 不仅包含第一人称视角的视频，还提供了丰富的注释，包括单个动作视频的两级时间界限以及每个动作的子步骤等。重要的是，EgoExo-Fitness 引入了新颖的注释，包括技术关键点验证、对动作执行的自然语言评论以及动作质量评分，为研究自主和固定视角下全身动作理解提供了新的资源。为了促进对自主和固定视角下全身动作理解的研究，我们构建了一套任务基准（即动作分类、动作定位、跨视图序列验证、跨视图技能判断和新提出的基于指导的执行验证任务），并进行了详细分析。代码和数据将在此 https URL 提供。

Jun, 2024