具有前瞻信息的强化学习
本研究因RL作为推理方法的短处而对其进行澄清,RL代理人必须考虑其行动对未来奖励和观察结果的影响,即探索和开发之间的权衡。我们证明了‘RL作为推理’近似在基本问题中表现不佳,但我们展示了通过小修正该框架可以获得可靠的算法,该算法与最近提出的K-learning等价,我们进一步将其与汤普森取样联系起来。
Jan, 2020
本文提出了基于学习奖励值的新颖探索方法来解决当前偏好型强化学习算法中人类反馈低效的问题,并在MetaWorld基准测试的复杂机器人操作任务中证明了其有效性。
May, 2022
研究如何选择奖励函数以提高强化学习的学习速度, 提出基于状态的奖励设计原则, 并提出线性规划算法以最大化行动差距和最小化主观贴现; 通过在表格环境中使用Q学习算法进行实验,表明设计奖励遵循一定的原则,如逐步增加接近目标奖励,可以加速学习。
May, 2022
本研究提出了一种新的统一原理来实现信息寻求和奖励最大化,将主动推理与强化学习结合起来,不仅解决了各自的局限性,同时还具有超越传统方法的探索新颖奖励的性能。
Dec, 2022
研究表明,线下强化学习算法具有一定的鲁棒性,即使使用错误的奖励标签经过训练,也能产生表现良好和安全的策略。该现象归功于线下RL算法中的悲观主义和常见数据收集实践中的某种偏见之间的相互作用,该特性在解释现有离线RL基准结果和创建未来基准时应该被考虑。
Jun, 2023
通过竞争分析的视角,我们量化分析了先见之明的未来回报信息的价值,并且得出了标准RL代理和具有部分未来回报展望的代理之间的比率。我们刻画了最坏情况下的回报分布,并得出了最坏情况下回报期望的精确比率。结果令人惊讶的是,所得比率与离线RL和无回报探索中的已知数量相关。我们还提供了给定最坏动态情况下的比率的严格界限。我们的结果涵盖了在行动之前观察即时回报到在交互开始之前观察所有回报之间的所有情况。
Mar, 2024
通过提出一种新的探索策略,克服现有方法的局限性,即使奖励不总是可观察到,也能保证收敛到最佳策略。我们还提出了一系列用于在强化学习中进行探索的表格环境(有或没有不可观察的奖励),并展示我们的方法优于现有方法。
Jun, 2024
本研究针对深度强化学习(DRL)中探索效率不足的问题,提出了一种新颖的贝叶斯演员-评论家算法,旨在提升环境的有效探索能力。通过理论研究和实证评估,证明该方法在标准基准和先进评估套件上的优越性,预计将为强化学习社区提供重要的工具和基础。
Aug, 2024