从局部纠正中学习操作方式

Feb, 2023

Learning Manner of Execution from Partial Corrections

Mattias Appelgren, Alex Lascarides

TL;DR该论文介绍了一种代理学习模型，在不同的上下文中学习行动执行方式，并利用试错和口头纠正来解决其领域级计划问题。

Abstract

Some actions must be executed in different ways depending on the context. For example, wiping away marker requires vigorous force while wiping away almonds requires more gentle force. In this paper we provide a model where an agent learns which manner of →

agent learning action execution context trial and error verbal correction

发现论文，激发创造

语言模型作为零 - shot 规划器：提取行动知识用于具身代理

本文研究大型语言模型在互动环境中是否可以利用所学的世界知识来执行高层任务，并提出了一种条件方法，将语言模型生成的中级计划语义上翻译为合适的操作以提高执行性能。在 VirtualHome 环境中的实证评估结果表明，该方法在可执行性方面显著优于大型语言模型基线。

Jan, 2022

从无序和嘈杂计划痕迹中学习动作模型

本文提出了一种基于 MAX-SAT 框架的方法，用于自动学习规划系统的领域模型，通过输入一组含有无序动作和噪声的计划迹线来输出最佳的动作模型，并通过系统实证评估证明了该方法的有效性

Aug, 2019

利用探索性规划进行自主学习动作模型

本文提出了一种新型的探索计划代理，它能够在没有专家跟踪或给定目标的情况下学习行动先决条件和效果，优化探索和行动模型学习，运用新的表示为 Lifted Linked Clauses 和一种新颖的探索行动选择方法，并在探索为中心的视频游戏场景中进行实证评估。

Mar, 2022

语言模型可以从环境反馈中推断经典计划器的动作语义

提出使用经典规划和大型语言模型共同实施领域归纳、学习和验证动作的前后条件，利用 LLM 推理来启发性地完成经典规划器发出的部分计划，并根据执行后的环境反馈用逻辑语言推断领域的语义规则。通过对 7 个环境的分析表明，使用 LLMs 作为启发性规划器和规则预测器仅需一个专家精心策划的示例计划，就能够比随机探索更少的执行步骤和环境重置，并同时恢复领域的基本行动语义。

Jun, 2024

在蒙特卡洛框架下通过阅读手册学习获胜

本文介绍了一种通过语言基础知识自动为控制算法提供指导的方法，并使用多层神经网络表示文本分析与游戏操作决策，实验证明这种基于语言知识的游戏代理系统可以显著提高控制性能和获胜概率。

Jan, 2014

通过纠错重新提示的方式，利用大型语言模型进行规划

本文提出了一种基于提示的策略，使用前置错误信息从 LLMs 中提取可执行计划，以设计智能化的实体代理，并在 VirtualHome 仿真环境中对该方法进行了评估。

Nov, 2022

动作修饰语：从教学视频中学习副词

通过伴随的叙述语的弱监督学习，提出了一种学习广告副词表示的方法，使用缩放点积注意力从指导视频中学习，并联合学习广告副词作为反演变换。实验结果表明，该方法在视频到副词检索方面的表现优于所有基线。

Dec, 2019

通过元学习用语言指导政策

本文提出了一种交互式的任务规范问题形式，通过自然语言指令和一系列语言修正来引导自主代理获得新技能，实现快速获取新技能，显著优于直接非交互式指令跟随。

Nov, 2018

这样走！学习将参照表达转化为行动，并从支持性教师中获得内部情节反馈

本文研究在协作环境中，利用 “分级算法” 等符号算法生成提问语句，并在任务中提供 “迭代情节反馈”，从而增强机器学习模型与人类的自然交互能力。研究发现，提供 “迭代情节反馈” 有助于模型在处理复杂情景中的泛化能力，并提高模型表现。

May, 2023

协同参考游戏中不同追随者行为的学习沟通策略

通过评估神经人工智能代理在协作性参照游戏中对伙伴行为的适应性，本文将语言准确性和协调任务作为强化学习问题进行建模，研究了共同强化学习算法（PPO）能否训练出在不同启发式跟随者行为（在自信程度和自治程度维度上变化）下表现良好的神经引导者代理。实验结果显示，考虑到通信努力这一新因素能够导致更简洁的交流策略（在某些步骤中保持静默），同时引导者的策略确实能够根据伙伴的自信程度和自治程度进行调整。

Feb, 2024