MULTISCRIPT: 支持开放领域日常任务的多模态脚本学习

Oct, 2023

MULTISCRIPT: 支持开放领域日常任务的多模态脚本学习

MULTISCRIPT: Multimodal Script Learning for Supporting Open Domain Everyday Tasks

Jingyuan Qi, Minqian Liu, Ying Shen, Zhiyang Xu, Lifu Huang

TL;DR通过建立 MultiScript 基准测试，我们提出了两种引入任务相关知识的多模态生成框架，这些框架显著提升了脚本生成和后续步骤预测的性能。

Abstract

Automatically generating scripts (i.e. sequences of key steps described in text) from video demonstrations and reasoning about the subsequent steps are crucial to the modern AI virtual assistants to guide humans to complete everyday tasks, especially unfamiliar ones. However, current methods for →

generative script learning multimodal script generation subsequent step prediction multiscript knowledge-guided multimodal generative frameworks

发现论文，激发创造

多媒体生成式脚本学习用于任务规划

提出了一种新的多媒体生成式脚本学习任务，通过同时跟踪文本和视觉模态中的历史状态，并以描述性图像呈现，旨在生成可视状态跟踪、对未见任务有归纳性和具有多样性的脚本，通过多媒体选性编码器实现对视觉状态变化的编码，使用检索增强解码器从以前观察到的任务中传递知识，通过优化多样性导向的对比学习目标，呈现每个步骤的不同信息。实验结果表明，该方法显著优于强基线。

Aug, 2022

通过多媒体基础实现非顺序图脚本归纳

该论文提出了一种新的具有挑战性的任务，即非顺序图脚本推理，旨在捕捉程序规划中的可选步骤和可互换步骤，通过多模态框架将视频转换成观察到的步骤路径，以训练生成明确图脚本和预测未来步骤的模型。该模型优于纯文本 / 视觉基线，人类评估显示超过 WikiHow 线性基线，能够更好地捕捉顺序和非顺序步骤关系。

May, 2023

面向多任务多模态模型的视频生成视角

通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射，我们的研究证明了多模态潜在空间设计的可行性，并提出了一种优于行业标准编解码器的视频本机时空分词器，从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地，我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。

May, 2024

面向目标的脚本构建

本文提出了一种目标导向的脚本构建任务，通过基于语言模型的生成方法和首先从候选池中检索相关步骤然后排序的检索方法，使用第一个支持 18 种语言的多语言脚本学习数据集来试验该任务，并表明该任务是实用的，可行的但挑战性很大，同时我们的方法在零 - shot 学习下能够在各种其他数据集和领域中轻松部署。

Jul, 2021

多模态体验启发的人工智能创作

基于多模态信息的序列到序列架构和课程负采样策略被设计，以解决基于人类经验生成文本的新问题，并在新的多模态体验数据集上进行了广泛的实验，取得了较大的改进。

Sep, 2022

多模态序列到序列任务的神经交互预测系统

我们展示了一个用于处理多模态序列到序列任务的神经交互预测系统的演示。该系统实现了客户端 - 服务器架构，可以通过一个网站访问完成不同的任务，如机器翻译、图像和视频字幕等，并在每次人工纠正输入时提供可供选择的替代假设，旨在减少此过程中人工纠正的工作量。该系统的代码均已公开发布。

May, 2019

多任务多模态提示训练用于交互式具象任务完成

我们提出了一种统一的编码 - 解码模型，称为 Embodied MultiModal Agent (EMMA)，可以处理交互和具身任务，其中每个任务对目标完成做出贡献，取得了与类似模型相当的性能并在 Dialog-guided Task Completion (DTC) 中取得了新的最佳结果（36.81% 的成功率）用于评估 Alexa Arena 中的对话引导代理。

Nov, 2023

通过多模态调节进行视频综合的展示和说明

使用多模态生成框架，结合文本和图像训练双向变压器等多重输入来预测离散视频表示，同时提供改进的样本视频代币和文本增广，以及支持分割掩码、绘图和部分遮挡图像等不同视觉模态，可以通过文本提示生成对应视频，并在四个数据集上取得了最新的生成结果。

Mar, 2022

VIMA: 多模态提示的通用机器人操作

使用多模态提示设计了一个基于转换器的通用机器人代理 (VIMA)，可以表达多种机器人操作任务，且在新颖的零激励泛化情况下优于先前的状态最优方法。

Oct, 2022

基于知识的多模态搜索对话代理

本研究通过学习 MMD 数据集并实现基于知识库的多模态对话模型解决了多模态基于搜索的对话系统中的新挑战，该模型将编码的知识库表示附加到解码器输入中，从而在文本相似性测量方面获得了高于强基线的表现，其中三个 BLEU 点仅由于使用了来自知识库的附加信息。

Oct, 2018