偏好条件下的语言引导抽象
使用自然语言设计状态抽象来实现模仿学习的框架,该框架利用语言模型的背景知识和自然语言监督,自动构建针对未见任务的状态表示,并证明其提高了泛化性和稳健性,缩短了设计时间。
Feb, 2024
这篇研究论文介绍了一种将自然语言引入模仿学习中的方法,可以让专家在提供动作演示的同时,提供自然语言的描述。通过融合语言、知觉和动作的关系,实现了更加精细的控制,降低了场景的模糊度。在七自由度机械臂控制任务上的模拟实验表明,此方法可有效学习自然语言条件下的机器人操作策略,并与其他方法相比做出了明显改进。
Oct, 2020
本文研究了使用自然语言标签并结合机器人交互数据集,来学习规划机器人视觉操作任务的问题,并发现此方法在具有一定自由度的语言规划任务中表现更优秀,成功地完成了使用自然语言描述的物品移动任务。
Sep, 2021
本文提出了一种基于视觉语言感知模型的新方法,可以在真实世界中从非结构化、离线、无需重置的数据中高效地学习通用的、以语言为条件的机器人技能,实验表明该方法配合 LLMS 可以在真实世界中完成长期、多层次的任务,并比以往方法少使用一个数量级的数据。
Oct, 2022
通过自然语言条件化的模拟学习方法,结合像素感知、自然语言理解和多任务连续控制的神经网络,可以在无需任务或语言标签的情况下,显著提高任务成果,同时将语言注释成本降低到总数据量的不到 1%。
May, 2020
基于偏好的强化学习已成为机器人学习中的一个新领域,其中人类通过表达对不同状态 - 动作序列的偏好,对机器人行为起到关键作用。为了应对机器人实际政策制定的要求,我们通过扩展每个查询收集的信息,包括偏好和可选的文本提示,解决了样本效率挑战。为了处理额外的查询信息,我们重新制定了奖励学习目标,包含灵活的重点内容 —— 那些包含相对高信息量并与预训练语言模型从文本中零 - shot 处理的特征相关的状态 - 动作对。通过模拟场景和用户研究,我们分析了反馈及其影响,揭示了我们工作的有效性。此外,收集到的集体反馈有助于在模拟的社交导航环境中对机器人进行社会合规轨迹训练。我们提供了训练策略的视频示例,网址为 https:// 此处替换为视频链接
Feb, 2024
研究从语言中学习以实现语言使用与机器智能的价值对齐,分析了两种不同类别的语言,即指令和描述,运用上下文强化学习进行形式化的建模,并且验证了这种社会学习方法在传统的强化学习任务中可以降低遗憾值。
Jun, 2022
大型语言模型在抽象推理任务上表现优秀,但与人类推理问题存在相似的缺陷,同时受到人类知识和信仰的影响,使用可信的现实情境方案进行推理可以提高推理质量,这种关联性帮助我们了解认知效应和语言模型表现的因素。
Jul, 2022
使用语言模型自身来引导任务规范化的学习框架,通过与用户进行自由形式的、基于语言的交互来提取和推断预期行为,在电子邮件验证、内容推荐和道德推理三个领域的实验中,我们展示了通过生成开放式问题或综合信息临界案例等方式激发语言模型表现的结果通常比用户编写的提示或标签更具信息量,用户反馈认为交互式任务引导所需的工作量较小,并能提供用户一开始未曾预见的新颖考虑。研究结果表明,基于语言模型的任务引导可以成为将模型与复杂人类偏好和价值观相一致的强大工具。
Oct, 2023
本研究提出使用词汇和形象语言所构建的视觉和语言表示形式来加强强化学习的探索能力,实验证明这种方法可以改善在高维连续部分可观测空间中进行探索所遇到的问题,促进算法性能的提高。
Apr, 2022