从 WikiHow 描述中学习家庭任务知识

IJCAISep, 2019

从 WikiHow 描述中学习家庭任务知识

Learning Household Task Knowledge from WikiHow Descriptions

Yilun Zhou, Julie A. Shah, Steven Schockaert

TL;DR该论文介绍了利用深度学习和整形规划学习从自然语言语料库中提取常识性过程知识的模型以及相关实验结果。

Abstract

commonsense procedural knowledge is important for AI agents and robots that operate in a human environment. While previous attempts at constructing procedural knowledge are mostly rule- and template-based, recent advances in →

commonsense procedural knowledge deep learning natural language processing embedding integer programming

发现论文，激发创造

使用 WikiHow 进行目标、步骤和时间排序的推理

该研究提出了关于过程事件中两种类型的推理任务：目标 - 步骤关系和步骤 - 步骤时间关系。通过基于 how-to 文章的 wikiHow 数据集，建立人类验证的测试集和生成自动训练集。经实验证明，训练集有效地提高了在 SWAG，Snips 和故事 Cloze 测试的性能。

Sep, 2020

跨常识任务转移程序知识

研究了 AI 模型透明地将过程知识传输到新的叙述任务的能力，并设计了 LEAP 框架，该框架基于自然和合成故事的一流建模体系结构、训练方案和增强策略，包括基于少量提示的强健自动标签器，来增强受到稀缺注释训练数据的学习。

Apr, 2023

向人类请教：利用人类指令提升强化学习的泛化能力

本文提出通过使用自然语言指令和行动轨迹演示来自动分解分层任务，以解决在稀疏奖励的强化学习设置中的复杂多任务问题，并证明人类演示有助于解决最复杂的任务，同时允许该模型再未见数据的情况下推广学习，从而使训练好的代理人具有可解释的行为。

Nov, 2020

通过叙述学习将说明文章与视频联系起来

本文提出了一种无需手动监督的方法来将『如何做』视频中的步骤与 wikiHow 等语言知识库中的指导文章进行对齐，并采用多模态对齐进行全局时间定位，验证结果表明与现有方法相比具有明显优势。

Jun, 2023

基于语言知识的家庭活动迁移学习

此研究旨在通过迁移学习方法以及基于语言模型的状态空间共同嵌入来提高服务机器人从之前学习中寻找相似方法，以解决家庭服务机器人学习新任务精度低的问题。实验结果表明，基于语义相似性从众多源任务中选择相似任务是非常有效的，并且对于避免遗忘问题可以通过更改更新策略来解决。

Jan, 2023

学习任务描述

本文介绍了一种针对自然语言处理系统的新框架和英语语言数据集 ZEST，用于评估系统的任务解决能力和系统化泛化类型的测试。最新的 T5 模型在 ZEST 数据集上达到 12％的得分，为 NLP 研究者留下了一个巨大的挑战。

Nov, 2020

使用分层潜在语言进行一次性示范学习

使用基于描述性语言的学习方法，研究设计了一个环境来测试智能体的泛化技能，并通过多个测试评估方案和测试集发现，在随机任务拆分的情况下，文本推理的智能体更适合应对这一挑战。

Mar, 2022

通过多媒体基础实现非顺序图脚本归纳

该论文提出了一种新的具有挑战性的任务，即非顺序图脚本推理，旨在捕捉程序规划中的可选步骤和可互换步骤，通过多模态框架将视频转换成观察到的步骤路径，以训练生成明确图脚本和预测未来步骤的模型。该模型优于纯文本 / 视觉基线，人类评估显示超过 WikiHow 线性基线，能够更好地捕捉顺序和非顺序步骤关系。

May, 2023

语言模型作为零 - shot 规划器：提取行动知识用于具身代理

本文研究大型语言模型在互动环境中是否可以利用所学的世界知识来执行高层任务，并提出了一种条件方法，将语言模型生成的中级计划语义上翻译为合适的操作以提高执行性能。在 VirtualHome 环境中的实证评估结果表明，该方法在可执行性方面显著优于大型语言模型基线。

Jan, 2022

为何不使用教科书？知识增强的教学视频程序规划

该研究探讨了代理程序在构建逻辑动作步骤序列方面的能力，从而组装战略性的过程计划。利用来自训练数据的程序化知识图，我们提出了一种名为 KEPP 的新型知识增强程序规划系统，该系统在各种复杂度设置下的实验评估结果表明，KEPP 取得了卓越的、最新的结果，同时只需要很少的监督。

Mar, 2024