面向教学活动的零射预测
ANTICIPATR 模型使用 segment-level representations 和 video-level representation 进行时间跨度较大的 action anticipation 任务,能够直接预测未来一段时间的行为实例。在 Breakfast、50Salads、Epic-Kitchens-55 和 EGTEA Gaze+ 数据集上得到了较好的结果。
Oct, 2022
本研究将预训练语言模型中的知识转移应用于视觉模型中,以提高动作预测的效果,实验表明简单的蒸馏技术可以在两个动作预测数据集上实现一定的相对增益。
Oct, 2022
本研究提出了一种基于 LSTM 网络的多模态框架,用于捕捉和模拟多标签的行动预测问题,并引入标签平滑的概念,以提高机器人技术在人机交互、辅助生活和自动驾驶等领域的预见性。
Apr, 2020
本文提出了一种无需专家指导,在探索环境中通过前向一致性损失生成目标导向的技能策略,并应用其中的零样本策略,成功地实现了 Baxter 机器人复杂绳子操作和 TurtleBot 在未知办公室环境中的导航。
Apr, 2018
本文提出了一种新的动作预测方法,该方法基于多阶段 LSTM 网络并运用上下文感知和动作感知特征以及引入了一种新的损失函数,可以在视频序列仅有少量片段的情况下实现高准确度的预测,并在多个公开数据集上超过了先前最优的动作预测方法,相对提升了 22.0%(JHMDB-21),14.0%(UT-Interaction),和 49.9%(UCF-101)的准确率。
Mar, 2017
通过引入包含丰富文本描述的 Stories 数据集,我们提出了一种新的方法来处理视频理解中的零样本学习问题,该方法可以在多个基准测试中取得新的最佳效果,提高了顶级准确率。
Sep, 2023
本文通过将符号性知识图谱融入变换网络,提高了视频段期望动作的预测准确性,从而加快了编辑工作流程,并通过提供叙事建议来促进创造力。在 Breakfast 和 50Salads 两个基准数据集上,我们的方法在使用短视频上下文进行长期动作预测方面,超过了现有最先进方法高达 9%。
Sep, 2023
本论文提出一种基于无标注训练数据的方法,结合深度动作条件视频预测模型和模型预测控制,使真实机器人能够进行非抓取操作,比如推动物体,并且可以处理训练过程中没有出现过的新物体。
Oct, 2016
我们研究如何通过大量的人类视频数据学习机器人在与未知对象交互时的多样化操作技能,采用分解方法从人类视频数据中学习人类如何完成期望任务,并将其转化为机器人的行为,从而实现零样本通用操作。
Dec, 2023