DiffAnt：行动预测的扩散模型

Nov, 2023

DiffAnt: Diffusion Models for Action Anticipation

Zeyun Zhong, Chengzhi Wu, Manuel Martin, Michael Voit, Juergen Gall...

TL;DR该研究采用扩散模型来从生成视角重新思考行动预测，在考虑未来的不确定性的情况下，通过生成多种可能的未来行动。对四个基准数据集进行了广泛实验证明该方法在行动预测方面取得了优秀的效果。

Abstract

Anticipating future actions is inherently uncertain. Given an observed video segment containing ongoing actions, multiple subsequent actions can plausibly follow. This uncertainty becomes even larger when predicting far into the future. However, the majority of existing action anticipation

action anticipation future uncertainties generative view diffusion models benchmark datasets

发现论文，激发创造

重新思考长期行动预测的学习方法

ANTICIPATR 模型使用 segment-level representations 和 video-level representation 进行时间跨度较大的 action anticipation 任务，能够直接预测未来一段时间的行为实例。在 Breakfast、50Salads、Epic-Kitchens-55 和 EGTEA Gaze+ 数据集上得到了较好的结果。

Oct, 2022

预测未来：联合学习模型用于行动预测

本篇论文提出了一种行动预测模型，受人类神经结构的启发，在预测未来视觉和时间表现方面，能够预测合理的未来行动，并证明使用视觉和时间语义的场景表示结合递归生成对抗网络 (GAN) 框架可以实现未来表现的表示综合，该模型在多个数据集上优于当前最先进的方法。

Dec, 2019

通过预测未来动态图像来预测动作

本文提出了一种使用动态图像和定制损失函数的生成模型来预测人类行为的方法，该方法在三个基准测试中相较于现有的最佳方法增强了 4% 至 5.2% 的预测准确性。

Aug, 2018

活动不确定性感知预测

本文利用行为模型和长度模型，针对不确定性进行建模，通过预测分布进行多样本采样，得到能够捕捉多模态未来活动的模型。在多个数据集上测试，模型在预测单个未来活动序列的准确性不受影响的同时，表现出较好的性能。

Aug, 2019

促进 LSTMs 早期预测动作

本文提出了一种新的动作预测方法，该方法基于多阶段 LSTM 网络并运用上下文感知和动作感知特征以及引入了一种新的损失函数，可以在视频序列仅有少量片段的情况下实现高准确度的预测，并在多个公开数据集上超过了先前最优的动作预测方法，相对提升了 22.0％（JHMDB-21），14.0％（UT-Interaction），和 49.9％（UCF-101）的准确率。

Mar, 2017

ActionDiffusion: 一个针对教学视频程序规划的动作感知扩散模型

我们提出了一个新颖的扩散模型 ActionDiffusion，用于指导教学视频中的过程规划，它是第一个在扩散模型中考虑动作之间的时间依赖关系，与现有方法相比，利用了动作按特定顺序执行的丰富信息内容。我们的方法通过将动作信息投影到噪声空间实现了对动作的学习和扩散过程中的去噪，其中，在噪声添加阶段通过在噪声掩码中添加动作嵌入，并通过在噪声预测网络中引入注意机制来学习不同动作步骤之间的相关性。我们在三个教学视频基准数据集（CrossTask、Coin 和 NIV）上进行了广泛的实验，并展示了我们的方法在 CrossTask 和 NIV 的所有指标以及 Coin 数据集上的除准确性以外的所有指标上胜过了以前的最先进方法。我们的研究结果表明，通过将动作嵌入添加到噪声掩码中，扩散模型能够更好地学习动作的时间依赖关系，并提高了过程规划的性能。

Mar, 2024

标签平滑的行动预测知识蒸馏

本研究提出了一种基于 LSTM 网络的多模态框架，用于捕捉和模拟多标签的行动预测问题，并引入标签平滑的概念，以提高机器人技术在人机交互、辅助生活和自动驾驶等领域的预见性。

Apr, 2020

通过对抽象目标的建模预测下一步行动

使用可变循环网络，结合视觉表示来提取目标信息，设计了一种抽象目标，用于减少人类行为预测中的不确定性，实验结果在多个数据集上达到了最新的最佳表现。

Sep, 2022

通过想象学习预测自我中心动作

本论文衡量了自主驾驶和机器人等实际应用中关键领域的动作预测任务。为了更准确的预测未来的动作，提出利用未观察的帧的标志挖掘做出预测，利用 ImagineRNN 将动作预测分解为一系列未来功能预测，并通过代理任务和残差预测进一步改进模型。

Jan, 2021

实时自我中心动作预测：一种评估方案和方法

为了进行流式自我中心行动评估，我们提出了一种基于前馈 3D 卷积神经网络和知识蒸馏技术的轻量级行动预测模型，该模型基于过去到未来的蒸馏损失进行优化，实验表明，这种预测能力优越的模型以及针对廉价设备的轻量级方法在自我中心行动预测场景中性能更佳。

Jun, 2023