SelfGoal: 语言智能已经知道如何实现高级目标
本研究介绍了一种使用预训练语言模型(LM)的语言模型增强的自我目标学习环境,它支持自动生成并学习具有多样性、抽象性、与人类相关的目标 —— 而非手动编码的目标表示、回报函数或课程,该系统可以在基于文本的任务无关环境中学习掌握各种广泛的技能。
May, 2023
大型语言模型(LLMs)显示出它们在人类世界的丰富语义知识方面的强大自动推理和规划能力。然而,接地问题仍然阻碍了 LLMs 在真实环境中的应用。为了自主将 LLM 接地到环境中,我们提出了自主驱动接地(SDG)框架,用于自动和渐进地通过自主驱动技能学习将 LLM 接地。通过在著名的指令遵循任务集 - BabyAI 中进行验证,SDG 在最具挑战性的任务中达到了与成百上千次演示成本的模仿学习方法相媲美的性能,证明了学习到的技能的有效性,显示出我们框架的可行性和效率。
Sep, 2023
本文提出了一种新颖的对抗式逆强化学习算法,使用条件化语言政策和奖励函数,以及使用变分目标生成器提高学习策略和奖励函数的泛化性,从而使自然语言变得可用于指导智能体任务的目标, 获得了非常好的性能表现。
Aug, 2020
使用大型语言模型作为高级控制系统,在航天器的设计和开发中通过利用语言模型作为推理引擎,评估该架构在实现更高级别航天器自主性方面的效用。
Apr, 2024
本研究介绍了一个基于自然语言生成奖励和目标函数的机器人操作自动化训练方法,运用 Goal-conditioned 和 MTRL 技术,使用 Large Language Models,针对机器人操作的可扩展性问题进行了实验验证。
Jun, 2023
该研究论文旨在探讨发展性机器学习方法,通过模仿儿童利用语言描述目标实现创造性发现和开放式的学习过程中的能力,提出了一种叫做 IMAGINE 的深度强化学习框架,并研究了其泛化和探索能力,以及目标想象、模块化和社交互动等因素对其结果的影响。
Feb, 2020
通过自我奖励语言模型的迭代 DPO 训练,本研究展示了模型的指示遵循能力及为自身提供高质量奖励的能力的提升,最终的 Llama 2 70B 模型在 AlpacaEval 2.0 排行榜上表现优于许多现有系统,包括 Claude 2、Gemini Pro 和 GPT-4 0613。这项初步研究为模型在两个方向上不断改进的可能性打开了大门。
Jan, 2024
我们提出了一种新颖的方法,利用人类在 3D 实体环境中解决任务时使用的无约束自然语言数据,通过软约束目标空间,对一组长期任务进行层次强化学习,从而实现在现实或开放环境中实现目标导向行为的挑战。
Sep, 2023