基于第一人称视频的动作预测的滚动展开 LSTM
本研究提出了一种基于 LSTMs 和 Modality ATTention (MATT) 机制的行为预测框架,能够对计算机视觉领域的尺度序列问题进行有效解决,同时在 EPIC-Kitchens 等数据集上表现出色。
May, 2019
本论文衡量了自主驾驶和机器人等实际应用中关键领域的动作预测任务。为了更准确的预测未来的动作,提出利用未观察的帧的标志挖掘做出预测,利用 ImagineRNN 将动作预测分解为一系列未来功能预测,并通过代理任务和残差预测进一步改进模型。
Jan, 2021
本文提出了一种新的动作预测方法,该方法基于多阶段 LSTM 网络并运用上下文感知和动作感知特征以及引入了一种新的损失函数,可以在视频序列仅有少量片段的情况下实现高准确度的预测,并在多个公开数据集上超过了先前最优的动作预测方法,相对提升了 22.0%(JHMDB-21),14.0%(UT-Interaction),和 49.9%(UCF-101)的准确率。
Mar, 2017
为了进行流式自我中心行动评估,我们提出了一种基于前馈 3D 卷积神经网络和知识蒸馏技术的轻量级行动预测模型,该模型基于过去到未来的蒸馏损失进行优化,实验表明,这种预测能力优越的模型以及针对廉价设备的轻量级方法在自我中心行动预测场景中性能更佳。
Jun, 2023
ANTICIPATR 模型使用 segment-level representations 和 video-level representation 进行时间跨度较大的 action anticipation 任务,能够直接预测未来一段时间的行为实例。在 Breakfast、50Salads、Epic-Kitchens-55 和 EGTEA Gaze+ 数据集上得到了较好的结果。
Oct, 2022
本文提出了一种基于时间卷积的层次结构多模态神经网络,不依赖于循环层实现对人类动作的预测,且通过多模态融合机制使得在处理具有 # egocentric videos# 意义的庞大数据集时达到了与最新研究相当的性能,但具有明显的时间优势。
Jul, 2021
本研究提出了一种基于 LSTM 网络的多模态框架,用于捕捉和模拟多标签的行动预测问题,并引入标签平滑的概念,以提高机器人技术在人机交互、辅助生活和自动驾驶等领域的预见性。
Apr, 2020
使用语言模型的长期动作预测方法 (LALM) 在 egocentric vision 中取得了领先地位,通过整合动作识别模型与视觉 - 语言模型,利用过去的事件信息进行动作预测,达到了在不同复杂活动中的泛化能力。
Nov, 2023
本报告描述了我们在 Ego4D 長期動作預測挑战赛 2023 中的技术细节,我们引入了三个改进,包括 SlowFast 和 SlowFast-CLIP 模型的集合,放松未来动作的顺序限制,以及基于词共现的操作类(动词、名词)的预测,优化了基线性能,取得了公共排行榜的第二名。
Jul, 2023
通过利用大型语言模型,我们提出了一种用于长期动作预测的两阶段框架 AntGPT,能够在人机交互中对未来行为进行准确预测,并且取得了最新的研究成果。
Jul, 2023