Where2Start: 利用初始状态进行鲁棒性和样本高效的强化学习

Nov, 2023

Where2Start: 利用初始状态进行鲁棒性和样本高效的强化学习

Where2Start: Leveraging initial States for Robust and Sample-Efficient Reinforcement Learning

Pouya Parsa, Raoof Zare Moayedi, Mohammad Bornosi, Mohammad Mahdi Bejani

TL;DR我们提出了 Where2Start 算法，通过选择初始状态，在该状态附近产生更多的不稳定性，从而改善强化学习中的样本效率。实验证明，Where2Start 算法可以提高样本效率达到 8 倍，并且可以与大多数最先进的算法结合，显著提高其稳健性和样本效率。

Abstract

The reinforcement learning algorithms that focus on how to compute the gradient and choose next actions, are effectively improved the performance of the agents. However, these algorithms are environment-agnostic. This means that the algorithms did not use the knowledge that has been ca

reinforcement learning algorithms knowledge capture trajectory sampling where2start algorithm sample efficiency

发现论文，激发创造

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用 2 倍样本，比模型自由方法少用 200 倍样本。

Oct, 2022

为高效探索确定目标取向轨迹

本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域，并提出将单个随机操作选择替换为随机目标选择，该方法与任何基于好奇心的探索和脱机强化学习代理兼容，并生成比单个随机操作更长且更安全的轨迹。

Jul, 2018

先回报，后探索

Go-Explore 算法通过显式地记住有前途的状态并在有意探索之前首先回到这些状态的简单原则，直接解决了探索中的 “detach” 和 “derailment” 问题，并在所有难探索游戏上超越了现有技术，并在稀疏奖励抓取放置机器人任务上展示了其实际潜力。

Apr, 2020

轨迹反馈的强化学习

本文提出了一种基于轨迹反馈的强化学习算法，通过加强措施而无需为每个状态 - 动作对提供奖励，旨在处理现实世界的环境下反馈不及时的问题，同时，我们还分析了此算法的性能并提供优化 - 汤普森采样方法来处理未知转移模型的情况。

Aug, 2020

基于邻近状态的强化学习探索

本文研究了强化学习中的探索开发平衡问题，并提出两种基于邻近状态的无模型探索算法，其中一种方法（${ho}$-explore）在离散环境中相比于基准算法 Double DQN，在评估奖励回报方面提高了 49％。

Dec, 2022

回溯模型：高效强化学习追溯痕迹

通过回溯模型和回溯的方式，可以在强化学习中发现更多高奖励状态，从而提高状态采样的效率。

Apr, 2018

可转移的图探索学习

该研究考虑了人工智能中尚未开发过的环境在探索方面的问题，并提出了一种从环境分布中学习策略的方法，将其作为强化学习任务来处理，以期能够在最短的步数内访问尽可能多的独特状态。实验结果表明，该方法在空间地图探索和领域特定程序和现实世界移动应用的覆盖率导向软件测试方面表现出色。

Oct, 2019

探索前进：在深度强化学习中利用探索进行泛化

提供一种新的方法 Explore-Go，通过增加代理训练的状态数目，从而有效地增加代理的起始状态分布，以提高强化学习中的泛化性能。

Jun, 2024

回放缓存搜索：连接计划和强化学习

我们介绍了一种结合规划算法和强化学习的通用控制算法，称为搜索回放缓冲（SoRB），可以自动生成子目标序列并解决高维度的长期任务。

Jun, 2019

基于反向模型的少量演示稳健仿真

本文提出了一种基于生成式反向动力学模型的行为克隆方法以解决自我学习表现不佳的问题，利用模型产生短期想象轨迹进行训练，提高了模型的健壮性和适应性。

Oct, 2022