DiffAnt:行动预测的扩散模型
ANTICIPATR 模型使用 segment-level representations 和 video-level representation 进行时间跨度较大的 action anticipation 任务,能够直接预测未来一段时间的行为实例。在 Breakfast、50Salads、Epic-Kitchens-55 和 EGTEA Gaze+ 数据集上得到了较好的结果。
Oct, 2022
本篇论文提出了一种行动预测模型,受人类神经结构的启发,在预测未来视觉和时间表现方面,能够预测合理的未来行动,并证明使用视觉和时间语义的场景表示结合递归生成对抗网络 (GAN) 框架可以实现未来表现的表示综合,该模型在多个数据集上优于当前最先进的方法。
Dec, 2019
本文提出了一种使用动态图像和定制损失函数的生成模型来预测人类行为的方法,该方法在三个基准测试中相较于现有的最佳方法增强了 4% 至 5.2% 的预测准确性。
Aug, 2018
本文利用行为模型和长度模型,针对不确定性进行建模,通过预测分布进行多样本采样,得到能够捕捉多模态未来活动的模型。在多个数据集上测试,模型在预测单个未来活动序列的准确性不受影响的同时,表现出较好的性能。
Aug, 2019
本文提出了一种新的动作预测方法,该方法基于多阶段 LSTM 网络并运用上下文感知和动作感知特征以及引入了一种新的损失函数,可以在视频序列仅有少量片段的情况下实现高准确度的预测,并在多个公开数据集上超过了先前最优的动作预测方法,相对提升了 22.0%(JHMDB-21),14.0%(UT-Interaction),和 49.9%(UCF-101)的准确率。
Mar, 2017
我们提出了一个新颖的扩散模型 ActionDiffusion,用于指导教学视频中的过程规划,它是第一个在扩散模型中考虑动作之间的时间依赖关系,与现有方法相比,利用了动作按特定顺序执行的丰富信息内容。我们的方法通过将动作信息投影到噪声空间实现了对动作的学习和扩散过程中的去噪,其中,在噪声添加阶段通过在噪声掩码中添加动作嵌入,并通过在噪声预测网络中引入注意机制来学习不同动作步骤之间的相关性。我们在三个教学视频基准数据集(CrossTask、Coin 和 NIV)上进行了广泛的实验,并展示了我们的方法在 CrossTask 和 NIV 的所有指标以及 Coin 数据集上的除准确性以外的所有指标上胜过了以前的最先进方法。我们的研究结果表明,通过将动作嵌入添加到噪声掩码中,扩散模型能够更好地学习动作的时间依赖关系,并提高了过程规划的性能。
Mar, 2024
本研究提出了一种基于 LSTM 网络的多模态框架,用于捕捉和模拟多标签的行动预测问题,并引入标签平滑的概念,以提高机器人技术在人机交互、辅助生活和自动驾驶等领域的预见性。
Apr, 2020
本论文衡量了自主驾驶和机器人等实际应用中关键领域的动作预测任务。为了更准确的预测未来的动作,提出利用未观察的帧的标志挖掘做出预测,利用 ImagineRNN 将动作预测分解为一系列未来功能预测,并通过代理任务和残差预测进一步改进模型。
Jan, 2021
为了进行流式自我中心行动评估,我们提出了一种基于前馈 3D 卷积神经网络和知识蒸馏技术的轻量级行动预测模型,该模型基于过去到未来的蒸馏损失进行优化,实验表明,这种预测能力优越的模型以及针对廉价设备的轻量级方法在自我中心行动预测场景中性能更佳。
Jun, 2023