面向教学活动的零射预测

ICCVDec, 2018

Zero-Shot Anticipation for Instructional Activities

Fadime Sener, Angela Yao

TL;DR提出了一种层次化模型，能够从大规模文本库中推广教学知识并将其转化为视觉领域，从而实现对机器人从未见过的活动的零样本预测，并介绍了 Tasty Videos 数据集。

Abstract

How can we teach a robot to predict what will happen next for an activity it has never seen before? We address this problem of zero-shot anticipation by presenting a →

robot zero-shot anticipation hierarchical model instructional knowledge tasty videos dataset

发现论文，激发创造

重新思考长期行动预测的学习方法

ANTICIPATR 模型使用 segment-level representations 和 video-level representation 进行时间跨度较大的 action anticipation 任务，能够直接预测未来一段时间的行为实例。在 Breakfast、50Salads、Epic-Kitchens-55 和 EGTEA Gaze+ 数据集上得到了较好的结果。

Oct, 2022

基于文本的知识助力视觉：视频行为预测的简单跨模态蒸馏

本研究将预训练语言模型中的知识转移应用于视觉模型中，以提高动作预测的效果，实验表明简单的蒸馏技术可以在两个动作预测数据集上实现一定的相对增益。

Oct, 2022

标签平滑的行动预测知识蒸馏

本研究提出了一种基于 LSTM 网络的多模态框架，用于捕捉和模拟多标签的行动预测问题，并引入标签平滑的概念，以提高机器人技术在人机交互、辅助生活和自动驾驶等领域的预见性。

Apr, 2020

零样本视觉模仿

本文提出了一种无需专家指导，在探索环境中通过前向一致性损失生成目标导向的技能策略，并应用其中的零样本策略，成功地实现了 Baxter 机器人复杂绳子操作和 TurtleBot 在未知办公室环境中的导航。

Apr, 2018

促进 LSTMs 早期预测动作

本文提出了一种新的动作预测方法，该方法基于多阶段 LSTM 网络并运用上下文感知和动作感知特征以及引入了一种新的损失函数，可以在视频序列仅有少量片段的情况下实现高准确度的预测，并在多个公开数据集上超过了先前最优的动作预测方法，相对提升了 22.0％（JHMDB-21），14.0％（UT-Interaction），和 49.9％（UCF-101）的准确率。

Mar, 2017

常识零样本动作识别故事讲述

通过引入包含丰富文本描述的 Stories 数据集，我们提出了一种新的方法来处理视频理解中的零样本学习问题，该方法可以在多个基准测试中取得新的最佳效果，提高了顶级准确率。

Sep, 2023

从未标注的视频预测视觉表达

该论文提出了一种利用未标记视频进行计算机视觉的动作和物体预测的深度学习框架，并采用可预测图像特征的目标识别算法进行实验验证。

Apr, 2015

人类中心视频中基于知识引导的短上下文动作预测

本文通过将符号性知识图谱融入变换网络，提高了视频段期望动作的预测准确性，从而加快了编辑工作流程，并通过提供叙事建议来促进创造力。在 Breakfast 和 50Salads 两个基准数据集上，我们的方法在使用短视频上下文进行长期动作预测方面，超过了现有最先进方法高达 9%。

Sep, 2023

深度视觉预见性规划机器人动作

本论文提出一种基于无标注训练数据的方法，结合深度动作条件视频预测模型和模型预测控制，使真实机器人能够进行非抓取操作，比如推动物体，并且可以处理训练过程中没有出现过的新物体。

Oct, 2016

通过翻译人类交互计划实现推广的零射击操作

我们研究如何通过大量的人类视频数据学习机器人在与未知对象交互时的多样化操作技能，采用分解方法从人类视频数据中学习人类如何完成期望任务，并将其转化为机器人的行为，从而实现零样本通用操作。

Dec, 2023