基于时间连接序列的自我中心视频描述

MMApr, 2017

基于时间连接序列的自我中心视频描述

Egocentric Video Description based on Temporally-Linked Sequences

Marc Bolaños, Álvaro Peris, Francisco Casacuberta, Sergi Soler, Petia Radeva

TL;DR本研究旨在利用一种新的方法，即多态输入的注意力循环网络，来描述自我中心影像序列的故事情节，并发布了第一个自我中心影像序列描述数据集，该方法的表现优于传统的注意力编码器 - 解码器方法。

Abstract

egocentric vision consists in acquiring images along the day from a first person point-of-view using wearable cameras. The automatic analysis of this information allows to discover daily patterns for improving the quality of life of the user. A natural topic that arises in

egocentric vision storytelling multi-input attention recurrent network dataset video description

发现论文，激发创造

面向语义快进和稳定的自我中心视频

本文提出了一种从自我视角视频中提取语义信息来汇总并稳定视频的方法，并介绍了一个带有多个语义标签的视频数据集和一种新的自我视角视频平滑评估度量标准。

Aug, 2017

检索增强的视觉第一人称视频字幕生成

从第一人称视角的视频中理解人类行为面临着重要挑战。本文提出了 EgoInstructor 模型，它能够自动检索语义相关的第三人称指导视频，以增强第一人称视频的视频字幕生成。通过对不同规模的第一人称和第三人称数据集进行自动配对来训练跨视角检索模块，并通过新颖的 EgoExoNCE 损失函数将第一人称和第三人称视频特征与描述相似行为的共享文本特征对齐。通过大量实验证明，跨视角检索模块在七个基准上表现出优越性能。借助第三人称视频作为参考，EgoInstructor 在第一人称视频字幕生成方面展现了显著的改进。

Jan, 2024

我视角最优：从自我中心视频中学习的过程

本文提出了一种使用基于第一人称视角拍摄的视频学习过程的框架，该框架可以在多个视频之间识别和利用关键步骤之间的时间对应关系，从而对过程进行学习。通过对两个基准数据集的实验，证明这一框架的性能优于现有的同类方法。此外，本文还提出了一个用于使用第一人称视角拍摄的视频进行过程学习的数据集。

Jul, 2022

自我视角在视角不变动作识别中的作用

本文主要研究如何利用佩戴式摄像头所获得的数据进行行为识别。研究发现，使用卷积神经网络进行自我视角识别可以开辟行为识别领域的新研究视角。

Jun, 2019

预测能够精简自我中心视频的重要对象

本研究提出了一种针对 egocentric（或 “穿戴式”）相机数据的视频摘要方法，通过使用区域线索和学习回归器，选择与相机佩戴者互动最多的重要对象和人，以生成紧凑的故事板摘要，并享有相对于现有显著性和摘要技术的巨大优势。

May, 2015

自我中心视听物体定位

本文提出了一个几何感知的时间聚合模块和级联特征增强模块来解决显式处理自我运动和消除视角移动对音视觉定位的影响，并通过自我监督学习开发 Epic Sounding Object 数据集评估模型，证明了我们的方法在以人为中心的视频中取得了最先进的对象定位性能，并可以推广到不同的音视觉场景。

Mar, 2023

Exo2EgoDVC：使用网络教育视频进行以自我为中心的程序性活动的密集视频标题生成

提出了一种用于稠密视频字幕的跨视图知识传递的新型基准，从具有外视图的网页教学视频调整模型以适应内视图领域。

Nov, 2023

基于轨迹对齐的特征用于第一人称动作识别

该研究旨在研究在第一人称视角下，如何准确识别行为。为此，提出了一种新颖的特征轨迹表示方法，并且使用所提出的方法在公开数据集上实现了 11% 的性能提升，该方法可以识别出佩戴者的各种行为，且不需要分割手 / 物体或识别物体 / 手的姿态。

Apr, 2016

传感器辅助的自我中心视频字幕生成与动态模态注意力

本文提出了一种新的通过传感器增强的主观视频字幕生成任务，并提出了应用多模态数据和关注机制的方法，以提高主观视频字幕生成的效率。结果表明，使用传感器数据作为补充数据可以提高主观视频字幕生成的效率，并且我们提出的方法表现优于其他方法。

Sep, 2021

跨视角外心到本体中心视频合成

本篇论文提出了一种基于 Bi-directional Spatial Temporal Attention Fusion Generative Adversarial Network（STA-GAN）的方法，通过多阶段处理，将 Exocentric view 视频序列转换为 Egocentric 视角，通过在时空注意力融合模块和双重鉴别器的作用下产生高质量的合成视频。在 Side2Ego 和 Top2Ego 数据集上的实验证明，该方法优于现有方法。

Jul, 2021