从局部纠正中学习操作方式
本文研究大型语言模型在互动环境中是否可以利用所学的世界知识来执行高层任务,并提出了一种条件方法,将语言模型生成的中级计划语义上翻译为合适的操作以提高执行性能。在 VirtualHome 环境中的实证评估结果表明,该方法在可执行性方面显著优于大型语言模型基线。
Jan, 2022
本文提出了一种基于 MAX-SAT 框架的方法,用于自动学习规划系统的领域模型,通过输入一组含有无序动作和噪声的计划迹线来输出最佳的动作模型,并通过系统实证评估证明了该方法的有效性
Aug, 2019
本文提出了一种新型的探索计划代理,它能够在没有专家跟踪或给定目标的情况下学习行动先决条件和效果,优化探索和行动模型学习,运用新的表示为 Lifted Linked Clauses 和一种新颖的探索行动选择方法,并在探索为中心的视频游戏场景中进行实证评估。
Mar, 2022
提出使用经典规划和大型语言模型共同实施领域归纳、学习和验证动作的前后条件,利用 LLM 推理来启发性地完成经典规划器发出的部分计划,并根据执行后的环境反馈用逻辑语言推断领域的语义规则。通过对 7 个环境的分析表明,使用 LLMs 作为启发性规划器和规则预测器仅需一个专家精心策划的示例计划,就能够比随机探索更少的执行步骤和环境重置,并同时恢复领域的基本行动语义。
Jun, 2024
本文介绍了一种通过语言基础知识自动为控制算法提供指导的方法,并使用多层神经网络表示文本分析与游戏操作决策,实验证明这种基于语言知识的游戏代理系统可以显著提高控制性能和获胜概率。
Jan, 2014
本文提出了一种基于提示的策略,使用前置错误信息从 LLMs 中提取可执行计划,以设计智能化的实体代理,并在 VirtualHome 仿真环境中对该方法进行了评估。
Nov, 2022
通过伴随的叙述语的弱监督学习,提出了一种学习广告副词表示的方法,使用缩放点积注意力从指导视频中学习,并联合学习广告副词作为反演变换。实验结果表明,该方法在视频到副词检索方面的表现优于所有基线。
Dec, 2019
本文研究在协作环境中,利用 “分级算法” 等符号算法生成提问语句,并在任务中提供 “迭代情节反馈”,从而增强机器学习模型与人类的自然交互能力。研究发现,提供 “迭代情节反馈” 有助于模型在处理复杂情景中的泛化能力,并提高模型表现。
May, 2023
通过评估神经人工智能代理在协作性参照游戏中对伙伴行为的适应性,本文将语言准确性和协调任务作为强化学习问题进行建模,研究了共同强化学习算法(PPO)能否训练出在不同启发式跟随者行为(在自信程度和自治程度维度上变化)下表现良好的神经引导者代理。实验结果显示,考虑到通信努力这一新因素能够导致更简洁的交流策略(在某些步骤中保持静默),同时引导者的策略确实能够根据伙伴的自信程度和自治程度进行调整。
Feb, 2024