通过自动学习组合子任务实现高效样本强化学习
介绍了一种RL任务形式化的方法,通过简单的构造实现了不同任务设置的统一,包括状态转移折扣的概括;并拓展了标准学习构造和部分理论结果,提供了一个可理解和可靠的形式化框架来构建理论和简化算法使用和开发。
Sep, 2016
本文提供了一种基于分布任务的meta-learning框架,自动学习新采样任务上的有效奖励塑形,从而解决了强化学习中信用分配的难题,并通过从DQN到DDPG的成功转移等各种设置,展示了探索 shaping 方法的有效性。
Jan, 2019
该研究提出了一种称为任务不可知强化学习 (task-agnostic RL) 的框架,用于解决强化学习中的有效探索挑战,该框架利用样本奖励值和一系列探索轨迹来发现复杂任务的最优策略,并给出了基于样本奖励值的有效算法UCBZero。
Jun, 2020
本文提出了一种基于群体的自动化强化学习(AutoRL)框架,该框架在优化超参数和神经网络结构的同时训练智能体,提高了元优化的采样效率。在MuJoCo基准套件中的TD3算法中,我们将元优化所需的环境交互次数减少了一个数量级。
Sep, 2020
本文阐述了在强化学习中选择适当的奖励设计方法对提高学习效率的重要性,并提出了一种将奖励设计融入强化学习框架的方案,并通过基于奖励设计所得到的样本效率的提高,证明了该方案在实践中的有效性。
Oct, 2022
我们提出了一种计数奖励自动机——一种能够模拟任何能以形式语言表示的奖励函数的有限状态机变体。与以前的方法不同,这些方法仅能表达任务为正则语言,而我们的框架允许通过无限制语法来描述任务。我们证明了一个配备这样抽象机器的代理能够解决比使用当前方法更多的任务。我们展示了这种表达能力的增加并不需要增加自动机的复杂性。我们提出了一系列利用自动机结构来提高样本效率的学习算法。我们展示了我们的方法在样本效率、自动机复杂性和任务完成方面优于竞争方法的实证结果。
Dec, 2023
我们提出了一个新颖的基于后验采样的离线RL算法,该算法在样本效率方面表现出与基于版本空间和经验正则化的算法可比拟的性能,并且具有频率主义的亚优性界限。
Jan, 2024
利用抽象技术在有限时间内生成“好”的潜力函数,分析在Potential Based Reward Shaping中有限时间引入的偏差,并在四个不同环境中进行评估,证明我们可以通过简单的全连接网络达到与基于CNN的解决方案相同的性能水平。
Apr, 2024
本文研究在不确定动态系统中学习最佳控制策略的问题,其中高层控制目标由线性时序逻辑(LTL)公式指定。研究提出了一种加速的强化学习算法,采用新颖的任务驱动探索策略,提高了样本效率,尤其在任务复杂性或马尔可夫决策过程(MDP)规模增大时更为显著。通过理论分析和实验证明,该方法能够显著快于现有竞争策略。
Oct, 2024
本研究解决了传统强化学习在样本效率和泛化能力方面的不足,特别是在处理复杂决策问题时。通过迁移和逆强化学习方法的全面综述,论文指出,近年来的研究主要集中在利用人机协作和模拟到现实的策略来提高知识转移的效率,同时强调了在低经验转移和多智能体、多意图问题上的训练方案的必要性。研究的关键发现为相关领域的进一步研究提供了重要的指导。
Nov, 2024