概括过去，预测未来：自然语言描述的背景加强多模态物体交互

Jan, 2023

概括过去，预测未来：自然语言描述的背景加强多模态物体交互

Summarize the Past to Predict the Future: Natural Language Descriptions of Context Boost Multimodal Object Interaction

Razvan-George Pasca, Alexey Gavryushin, Yen-Ling Kuo, Luc Van Gool, Otmar Hilliges...

TL;DR研究以自我为中心的视频中的物体交互预测。我们提出了一个基于多模态变换器的架构 TransFusion，利用语言总结过去的动作背景，这个动作背景和下一个视频帧一起被多模态融合模块处理以预测下一个物体交互。我们的模型提高了端到端学习的效率，并通过 Ego4D 和 EPIC-KITCHENS-100 实验证明了模型的有效性。

Abstract

We study object interaction anticipation in egocentric videos. This task requires an understanding of the spatiotemporal context formed by past actions on objects, coined →

object interaction anticipation egocentric videos multimodal transformer-based architecture action context language-based context summaries

发现论文，激发创造

从时间维度出发：多模态自我中心动作识别

利用时间上下文提高了自我中心视频识别能力的基于转换器的多模态模型。

Nov, 2021

文本输入模态对动作预测效果的研究

我们提出了一种多模态预测变压器（MAT）架构，它使用来自多模态特征和文本字幕的信息来预测未来的动作。通过对预训练阶段的动作描述和模态特征融合期间检测到的对象和动作的文本输入进行扩展实验，我们评估了预训练阶段的有效性，并在所有数据集上展示了我们模型的优势。此外，我们还评估了通过文本获取的对象和动作信息的影响，并进行了广泛的消融实验。在 EpicKitchens-100、EpicKitchens-55 和 EGTEA GAZE + 三个数据集上评估表现，结果显示文本描述确实有助于更有效的动作预测。

Jan, 2024

以物体为中心的视频表示对长期行动预测

本文旨在建立面向视频中长期动作预测的物体中心表示。我们提出利用视觉 - 语言预训练模型构建物体中心视频表示，通过 “物体提示” 从通用预训练模型中提取任务特定的物体中心表示。我们使用基于 Transformer 的神经架构来识别和预测人 - 物交互，并在 Ego4D、50Salads 和 EGTEA Gaze + 基准测试上进行了广泛评估，定量和定性结果证实了我们提出方法的有效性。

Oct, 2023

多模态数据自适应融合技术

本研究提出了两种自适应融合网络（Auto-Fusion、GAN-Fusion），通过对不同模态的特征进行有效的上下文建模，在多模态机器翻译和情感识别等任务中取得了比现有方法更好的效果。

Nov, 2019

基于交互式 Transformer 的端到端环境感知和预测

本文提出利用新颖 Transformer 架构的 LSTM 循环神经网络去捕捉因交互而产生的时空相关性，来解决自动驾驶场景下的 3D 物体检测及其未来运动轨迹预测，经过实验证明，本方法的准确率及效率均优于同类算法。

Aug, 2020

言之有据：基于视觉语境的话语表达

该研究关注如何将视觉内容整合到对话 AI 系统中，提出了一种基于视觉上下文的任务，利用在线教育视频数据集自动训练一个多模态视觉 - 语音预测模型，能够优于基于文本输入的基准模型，并在多个 VideoQA 基准测试中获得最先进的表现.

Dec, 2020

多模态时间卷积网络在自我中心视频中预测动作

本文提出了一种基于时间卷积的层次结构多模态神经网络，不依赖于循环层实现对人类动作的预测，且通过多模态融合机制使得在处理具有 # egocentric videos# 意义的庞大数据集时达到了与最新研究相当的性能，但具有明显的时间优势。

Jul, 2021

面向上下文感知语音识别的视觉特征

该论文提出了一种基于 DNN 技术的语音识别系统及 RNN 语言模型来提高视频自动生成的字幕准确性，通过对视频中自动检测到的物体或场景的条件来减少困惑度和提高转录，可以应用于机器人、人机交互及音视频存档索引等领域。

Dec, 2017

基于文本的知识助力视觉：视频行为预测的简单跨模态蒸馏

本研究将预训练语言模型中的知识转移应用于视觉模型中，以提高动作预测的效果，实验表明简单的蒸馏技术可以在两个动作预测数据集上实现一定的相对增益。

Oct, 2022

利用时间语境进行视频动作识别

TC-CLIP 是一种改进的视觉语言模型，通过引入时间上下文信息和制造上下文令牌来实现视频理解和行为识别的效果提升。

Apr, 2024