从时间维度出发：多模态自我中心动作识别

Nov, 2021

从时间维度出发：多模态自我中心动作识别

With a Little Help from my Temporal Context: Multimodal Egocentric Action Recognition

Evangelos Kazakos, Jaesung Huh, Arsha Nagrani, Andrew Zisserman, Dima Damen

TL;DR利用时间上下文提高了自我中心视频识别能力的基于转换器的多模态模型。

Abstract

In egocentric videos, actions occur in quick succession. We capitalise on the action's temporal context and propose a method that learns to attend to surrounding actions in order to improve recognition performanc

egocentric videos temporal context multimodal model language model state-of-the-art performance

发现论文，激发创造

多模态时间卷积网络在自我中心视频中预测动作

本文提出了一种基于时间卷积的层次结构多模态神经网络，不依赖于循环层实现对人类动作的预测，且通过多模态融合机制使得在处理具有 # egocentric videos# 意义的庞大数据集时达到了与最新研究相当的性能，但具有明显的时间优势。

Jul, 2021

通过视频注意力和时间上下文进行自我中心动作识别

这篇文章介绍了三个方法：动作识别、动词和名词分类以及空间 - 时间视频注意力模型来解决小动态物体、复杂手部物体交互和遮挡等挑战。

Jul, 2020

看和听自我的行动：我们能学到多少？

本文提出了一种基于音频和视觉信息的厨房环境中的多模态方法，利用稀疏时间采样策略，通过音频、空间和时间流的后期融合，在 EPIC-Kitchens 数据集上实验表明多模态方法比单模态方法更好地提高了动作识别性能，特别是在动词分类上实现了 5.18% 的改进。

Oct, 2019

概括过去，预测未来：自然语言描述的背景加强多模态物体交互

研究以自我为中心的视频中的物体交互预测。我们提出了一个基于多模态变换器的架构 TransFusion，利用语言总结过去的动作背景，这个动作背景和下一个视频帧一起被多模态融合模块处理以预测下一个物体交互。我们的模型提高了端到端学习的效率，并通过 Ego4D 和 EPIC-KITCHENS-100 实验证明了模型的有效性。

Jan, 2023

EPIC-Fusion: 基于视听时空绑定的第一人称动作识别

提出了一种多模态融合架构，采用中层融合以及稀疏地对融合表示进行时间采样，将 RGB、Flow 和 Audio 三种模态进行融合，重点研究了多模态时间绑定，逐步改进，取得最先进的结果。

Aug, 2019

自我中心行为识别的多模态蒸馏

本文研究了如何在仅使用 RGB 帧作为输入的情况下，保持多模态方法的性能表现，进而采用多模型知识蒸馏框架来处理这个问题，并在输入视角数量减少的情况下展示了更高的性能。

Jul, 2023

利用多任务学习提升自我中心行为识别

本文提出了一种使用多任务学习的方法，通过并行训练网络来提高动作识别的准确率，并同时实现手部和凝视估计的辅助任务。在多个数据集上的实验证明，该方法在动作识别上的性能明显优于单任务学习模型，并可以准确预测手部和凝视位置。

Sep, 2019

用 Rolling-Unrolling LSTM 和模态注意力预测以自我为中心的行为

本研究提出了一种基于 LSTMs 和 Modality ATTention (MATT) 机制的行为预测框架，能够对计算机视觉领域的尺度序列问题进行有效解决，同时在 EPIC-Kitchens 等数据集上表现出色。

May, 2019

人类中心视频中基于知识引导的短上下文动作预测

本文通过将符号性知识图谱融入变换网络，提高了视频段期望动作的预测准确性，从而加快了编辑工作流程，并通过提供叙事建议来促进创造力。在 Breakfast 和 50Salads 两个基准数据集上，我们的方法在使用短视频上下文进行长期动作预测方面，超过了现有最先进方法高达 9%。

Sep, 2023

增强 Transformer 主干网络，用于自我中心视频动作分割

本研究提出了两种新颖的想法来增强用于行动分割的 transformer，第一，我们引入了双扩张注意机制来自适应地捕获局部到全局和全局到局部上下文中的分层表示。第二，我们在编码器和解码器块之间加入跨连接以防止解码器丢失局部上下文。此外，我们利用最先进的视觉语言表示学习技术为我们的 transformer 提取更丰富，更紧凑的特征。我们的方法在 Georgia Tech Egocentric Activities (GTEA) 和 HOI4D Office Tools 数据集上优于其他最先进的方法，并且我们通过消融实验验证了我们介绍的组件。我们的源代码和补充材料公开可用。

May, 2023