无任务名称的上下文注入用于程序规划

Feb, 2024

无任务名称的上下文注入用于程序规划

CI w/o TN: Context Injection without Task Name for Procedure Planning

Xinjie Li

TL;DR本研究探讨了在教学视频中的过程规划挑战，旨在通过观察视频中的视觉起点和目标，创建目标导向的计划。在先前的研究中，通过从大量的中间视觉观察或语言指令逐渐减少训练监督来解决此问题。然而，随着大型语言模型的出现，即使只提供任务名称，这些模型也可以生成详细的计划。本研究提出了一种更弱的设置方式，没有任务名称作为监督，当前大型语言模型无法解决此问题，因为它们需要具备充分信息的良好提示。具体而言，我们假设以前的中间监督可以作为上下文信息，并使用视觉起点和目标观察的标题作为更便宜的监督形式。该方法极大地降低了标记成本，因为标题可通过大型预训练视觉 - 语言模型轻松获得。从技术上讲，我们应用 BLIP 生成标题，作为对比学习损失训练上下文特征。然后，将上下文特征输入生成器以辅助计划生成。我们在两个不同规模的数据集上进行的实验证明，我们的模型在多个指标上可以达到可比较的性能，从而验证了我们的假设。

Abstract

This paper explores the challenge of procedure planning in instructional videos, which involves creating goal-directed plans based on visual start and goal observations from videos. Previous research has tackled this problem with gradually weaker training →

procedure planning instructional videos visual start and goal observations large language models supervision

发现论文，激发创造

P3IV: 从教学视频中使用弱监督进行概率过程规划

本文提出了一种基于 transformer 和概率生成模块的弱监督方法，用于学习从自然语言指令中提取过程规划，避免了对训练视频进行昂贵的时序视频标注，并在三个数据集上的对比实验证明其优于之前的全监督模型。

May, 2022

通过情境建模和基于模型的策略学习在教学视频中进行程序规划

本文提出了一种新的过程规划公式，通过贝叶斯推论和基于模型的模仿学习，建模人类行为，从而在实际的指导视频中实现了它，证明了我们的方法可以实现达到指定目标的最先进性能的同时，学习到的上下文信息以潜在空间的形式表现出有趣的特征。

Oct, 2021

来自上下文无关监督的上下文感知字幕

本文针对图像生成环境下的语境问题，提出了一种关键词区分的图像描述生成方法，该方法不需要针对每个具体图像进行训练，可以在广泛的背景数据上实现对关键特征的描述和生成。根据实验和人类调查结果显示，该方法在区分性描述上优于基准生成型和发话人 - 听众型方法。

Jan, 2017

超级提示：利用模型无关的语境数据减少视觉常识任务中的数据注释需求

本文研究如何使用 Prompt-based Fine-tuning 技术提高语言模型和多模式因果变换器模型的效果，结果表明使用只有 35%-40% 的训练数据集便能取得可比较的效果，从而达到显著的时间和费用节约。

Apr, 2022

Auto-ICL: 无人监督的上下文学习

在大语言模型时代，人机交互朝着自然语言发展，提供了前所未有的灵活性。然而，大语言模型在上下文学习领域内高效运行往往依赖于结构良好的提示。为了解决这一挑战，我们的研究提出了一个名为自动上下文学习的通用框架。在接收到用户的请求后，我们要求模型自主生成示例，包括标签、说明或推理路径。然后，模型利用这个自产的上下文来解决给定的问题。我们的方法具有普适性，可在适用于普通上下文学习的任何环境中实施。我们展示了我们的方法在一系列任务中取得了强大的性能，并与现有方法相比表现出色。

Nov, 2023

基于事件引导的通过文本监督的指导视频的流程规划

本研究针对从带有文本监督的指令视频中进行过程规划的任务，提出了一种基于事件引导的范式，通过从观察到的状态中推断事件并基于状态和预测的事件规划行动。在提出的模型中，还采用了遮盖和预测方法进行关系挖掘，通过将事件信息编码到顺序建模过程中来支持过程规划。实验证明了我们提出的模型的有效性。

Aug, 2023

冻结视觉语言模型的测试时视觉识别中的上下文提示学习

通过测试样本的无监督目标，在视觉识别任务中使用上下文提示学习来适应预训练的视觉 - 语言模型，并取得了在各种下游数据集上的有效结果。

Mar, 2024

SINC：自我监督上下文学习用于视觉 - 语言任务

本文提出了一种自监督的上下文学习 (SINC) 框架，可以在视觉 - 语言领域的各种任务中进行前馈预测，无需通过渐变更新进行特定任务微调，并表明在少样本数据的情况下 SINC 方法优于基于梯度的方法。

Jul, 2023

带因果干预的依赖式多任务学习在图像字幕生成中的应用

本文提出了一种基于因果干预的依赖多任务学习框架（DMTCI）来解决图像描述生成过程中出现的问题，该框架采用包含类别生成、因果计算和多智能体强化学习策略来提高模型对视觉特征的理解和生成句子的一致性及信息性。实验结果表明，DMTCI 模型优于基准模型，并达到了与最先进模型相媲美的性能。

May, 2021

IMProv: 基于修复的多模态计算机视觉任务解题

本研究提出了 IMProv - 一种生成模型，能够从多模态提示中进行上下文学习，以解决计算机视觉任务，并通过文本条件和数据集缩放来提高任务性能。

Dec, 2023