学习用于规划的抽象且可迁移的表示
选择适当的环境表示对于强化学习代理的决策过程并不总是直观的,本研究考察了不同状态表示对于激励代理解决机器人任务的影响,结果显示使用数字状态的强化学习代理与非学习基线表现相当,而使用经过预训练环境嵌入向量的图像表示的代理表现更好,推测任务特定的知识对于实现收敛和高成功率的机器人控制是必要的。
Sep, 2023
通过将规划器使用的一阶符号表示从编码状态空间结构的非符号输入中学习,我们解决了图像与符号之间的鸿沟,这意味着推断一个完整的一阶表示(即一般的动作模式、关系符号和对象)来解释所观察到的状态空间结构。
Sep, 2019
我们提出了一个用于多智能体系统中建模代理行为的泛化学习框架,将代理建模作为表示学习问题,并使用模仿学习和代理识别的算法进行无监督学习,以构建代理策略的表示形式。在具有挑战性的高维连续控制和通信合作环境中,我们经验证明该框架对于使用深度强化学习进行无监督聚类和策略优化的监督预测任务具有实用价值。
Jun, 2018
本文提出了一种利用符号规划的方法,采用先前的训练数据自动训练神经网络识别物体属性的方法,并使用规划技术来自动化训练数据集的创建和学习过程。最后,我们在模拟和真实环境中进行了实验评估,结果表明所提出的方法能够成功地学习如何识别新的物体属性。
Jan, 2023
为了实现先验未知的真实世界场景下的自治,我们介绍了一种称为 PALMER 的通用规划算法,将经典基于采样的规划算法与基于学习的感知表示相结合,从而获得更健壮、更高效的长视距规划。
Dec, 2022
本文提出一种新的方法,通过共享基于低维学习的环境编码来明确地连接无模型和有模型的强化学习方法,该方法能够捕捉到总结性抽象,同时具有模块化的特点,因此具有良好的泛化能力和计算效率,并在较小的潜在状态空间中进行计划。此外,此方法还能恢复足够低维的环境表示,从而为可解释的人工智能、探索和迁移学习开辟了新的策略。
Sep, 2018
本研究提出通过盲辅助代理训练学习场景的可操作表示,用于导航决策,并且经实验证明该学习表示方式在处理复杂环境及从模拟到真实场景的转换时具有很好的鲁棒性。
Jun, 2023
本文介绍了一种新的从上至下的方法,用于在执行强化学习的同时构建状态抽象,动态计算一个基于 Q 值分散的抽象,结果表明,这种方法自动学习细调问题的抽象,具有较强的样本效率,并使强化学习代理明显优于现有方法。
Oct, 2022
本文探索运用物体感知表征学习技术进行机器人任务,自监督学习方法可降低实际世界中收集大量标记数据的成本,该研究展示物体感知表征学习技术在策略学习和物体定位预测方面显著提高了当前技术的效能和表现。
May, 2022