VAL: GPT 对话解析的交互式任务学习

Oct, 2023

VAL: GPT 对话解析的交互式任务学习

VAL: Interactive Task Learning with GPT Dialog Parsing

Lane Lawley, Christopher J. MacLellan

TL;DR使用语言模型和符号集成的交互式任务学习系统（VAL）能够从自然语言中获取层次化任务知识，并且被用户在视频游戏环境中认为是自然的语言来成功教导。

Abstract

reinforcement learning often requires millions of examples to produce static, black-box models. In contrast, interactive task learning (ITL) emphasizes incremental knowledge acquisition from limited instruction p

reinforcement learning interactive task learning brittleness large language models val

发现论文，激发创造

通过利用语篇中普遍描述的语义交互获取精细视觉概念

本文探讨在交互任务学习（ITL）的限制下，如何通过利用老师的通用陈述和上下文中的暗示，来更有效地识别相似的物体类别，以实现少样本学习和增量学习。

May, 2023

ICAL: 将轨迹转化为可行动洞见的多模态智能体的持续学习

我们提出了一种名为 In-Context Abstraction Learning（ICAL）的方法，通过从次优演示和人类反馈中构建多模态体验洞察记忆，将 VLMs 将轨迹抽象为一个通用程序，显著提高了检索增强的 LLM 和 VLM 代理的决策能力。

Jun, 2024

理解大型语言模型在对话评估中的效果

本文探讨了大型语言模型在对话评估上的应用，发现训练模型的数据集的多样性和相关性是影响其性能的关键因素，同时探究了样本数量和使用类型对模型表现的影响。

Jan, 2023

使用 GPT 从对话中交互学习分层任务

使用对话作为交互前端的 GPT 模型，学习可解释、符号化的任务，并将其表示为具有作用域变量参数的谓词 - 论元结构的分层分解，从而使得分层任务知识得以在自然、自由的对话环境中被获得和重用。

May, 2023

DyVal：基于图信息的大型语言模型动态评估

本文介绍了 DyVal，一种新颖、通用、灵活的评估协议，用于动态评估大型语言模型，根据该框架，借助有向无环图的结构优势，动态生成具有可控复杂度的评估样本，并在数学、逻辑推理和算法问题等推理任务上生成挑战性的评估集，实验证明大型语言模型在 DyVal 生成的评估样本中表现较差，强调动态评估的重要性。此外，分析了失败案例和不同提示方法的结果，并表明 DyVal 生成的样本不仅是评估集，还是改进 LLMs 在现有基准上性能的有用数据，希望 DyVal 能为未来的 LLMs 评估研究提供启示。

Sep, 2023

用语言导向的时间变分推断进行技能学习

我们提出了一种从专家示范中发现技能的算法，该算法首先利用大型语言模型对轨迹进行初步分割，然后采用层次变分推理框架结合语言模型生成的分割信息，通过合并轨迹段来发现可重用的技能。为了进一步控制压缩和可重用性之间的权衡，我们引入了一种基于最小描述长度原则的新辅助目标，有助于指导这一技能发现过程。我们的结果表明，使用我们的方法装备的代理能够发现有助于加速学习的技能，并在 BabyAI（一个网格世界导航环境）以及 ALFRED（一个家庭仿真环境）的新长期任务中胜过基线技能学习方法。

Feb, 2024

无任务先验学习实现新任务

本文提出了一种名为任务不可知学习方法（TAL）的学习方法，该方法可从任务不可知数据中学习碎片化知识以完成新任务，TAL 由四个阶段组成：任务不可知探索，知识图表组织，动作特征提取，候选动作生成和动作建议。该方法在虚拟室内场景上的实验表明，它的性能优于当前的强化学习和模仿学习算法。

Sep, 2022

审慎行事：揭示 GPT-4V 在机器人视觉语言规划中的能量

我们介绍了一种名为 Robotic Vision-Language Planning (ViLa) 的新方法，该方法结合了视觉 - 语言模型和长期规划，通过直接整合感知数据来生成可行步骤序列，以在广泛的开放世界操纵任务中展示其优势。

Nov, 2023

LLM 如何引导强化学习？一种基于价值的方法

本研究探讨了如何利用大型语言模型的策略先验知识来提高强化学习算法的样本利用效率，并通过在三个交互环境中的实验验证了该方法在成功率和样本利用效率方面均超过了之前的强化学习和大型语言模型方法。

Feb, 2024

通过分解学习自适应语言界面

该研究旨在创建一个交互式、自然语言接口，通过学习用户在模拟机器人环境中完成任务。该接口引入了一种神经语义解析系统，通过分解学习新的高层抽象：用户通过将描述新行为的高层话语分解为它可以理解的低级步骤来与系统互动。作者的方法弥合了现有方法之间的差距，并证明了现代神经系统的灵活性以及基于语法的方法具有的一次可靠泛化能力。研究还讨论了实现交互式范式的潜力的障碍。

Oct, 2020