用 Rolling-Unrolling LSTM 和模态注意力预测以自我为中心的行为
本文提出了一种基于 Rolling-Unrolling LSTM、序列完成预训练技术和 Modality ATTention 机制的方法来预测自我中心视频中未来的行动和交互对象,并在 EPIC-Kitchens、EGTEA Gaze + 和 ActivityNet 数据集上验证了其有效性。
May, 2020
本文提出了一种基于时间卷积的层次结构多模态神经网络,不依赖于循环层实现对人类动作的预测,且通过多模态融合机制使得在处理具有 # egocentric videos# 意义的庞大数据集时达到了与最新研究相当的性能,但具有明显的时间优势。
Jul, 2021
为了进行流式自我中心行动评估,我们提出了一种基于前馈 3D 卷积神经网络和知识蒸馏技术的轻量级行动预测模型,该模型基于过去到未来的蒸馏损失进行优化,实验表明,这种预测能力优越的模型以及针对廉价设备的轻量级方法在自我中心行动预测场景中性能更佳。
Jun, 2023
本论文衡量了自主驾驶和机器人等实际应用中关键领域的动作预测任务。为了更准确的预测未来的动作,提出利用未观察的帧的标志挖掘做出预测,利用 ImagineRNN 将动作预测分解为一系列未来功能预测,并通过代理任务和残差预测进一步改进模型。
Jan, 2021
本文提出了一种新的动作预测方法,该方法基于多阶段 LSTM 网络并运用上下文感知和动作感知特征以及引入了一种新的损失函数,可以在视频序列仅有少量片段的情况下实现高准确度的预测,并在多个公开数据集上超过了先前最优的动作预测方法,相对提升了 22.0%(JHMDB-21),14.0%(UT-Interaction),和 49.9%(UCF-101)的准确率。
Mar, 2017
我们提出了一种多模态预测变压器(MAT)架构,它使用来自多模态特征和文本字幕的信息来预测未来的动作。通过对预训练阶段的动作描述和模态特征融合期间检测到的对象和动作的文本输入进行扩展实验,我们评估了预训练阶段的有效性,并在所有数据集上展示了我们模型的优势。此外,我们还评估了通过文本获取的对象和动作信息的影响,并进行了广泛的消融实验。在 EpicKitchens-100、EpicKitchens-55 和 EGTEA GAZE + 三个数据集上评估表现,结果显示文本描述确实有助于更有效的动作预测。
Jan, 2024
使用语言模型的长期动作预测方法 (LALM) 在 egocentric vision 中取得了领先地位,通过整合动作识别模型与视觉 - 语言模型,利用过去的事件信息进行动作预测,达到了在不同复杂活动中的泛化能力。
Nov, 2023
ANTICIPATR 模型使用 segment-level representations 和 video-level representation 进行时间跨度较大的 action anticipation 任务,能够直接预测未来一段时间的行为实例。在 Breakfast、50Salads、Epic-Kitchens-55 和 EGTEA Gaze+ 数据集上得到了较好的结果。
Oct, 2022
本文研究了如何在仅使用 RGB 帧作为输入的情况下,保持多模态方法的性能表现,进而采用多模型知识蒸馏框架来处理这个问题,并在输入视角数量减少的情况下展示了更高的性能。
Jul, 2023