通过分析探索算法的特点和效果,我们研究了深度强化学习中的在线迁移学习,发现某些特征与多种迁移任务的有效性和效率改善相关,为特定迁移情况提供了有针对性的探索算法特征建议。
Apr, 2024
量化和比较强化学习算法通过知识传递在探索和学习方面的努力,并使用基于最优输运的度量方法比较强化学习和监督学习算法在数据分布空间中的路径总长度,从而提供有关强化学习算法的探索行为的洞见并比较不同算法的探索行为。
Feb, 2024
本文介绍了关于(连续)强化学习中现代探索方法的调查,以及探索方法的分类。
Sep, 2021
研究在强化学习中的探索和利用的权衡,通过解决探索感知标准来获得最优政策,结果是在表格和深度强化学习算法中应用简单变化并在离散和连续动作空间中,相对于非探索感知对应物表现出更好的性能。
Dec, 2018
研究探讨了在连续时间内通过采用熵正则化奖励函数促进探索和利用现有知识之间达到的最佳折衷方案,提出使用行为分布的微分熵来规范化奖励函数的熵正则化,并通过高斯分布表征推导出最佳反馈控制分布来平衡利用和探索性搜索,最后通过熵正则化 LQ 问题的解法证明当探索比重衰减至零时,解法能够收敛于经典 LQ 问题的解。
通过规划最大化任务最优轨迹的期望信息增益的行动序列,使得该方法在较低的样本量下能够学习较强的策略,比探索基线算法少用 2 倍样本,比模型自由方法少用 200 倍样本。
Oct, 2022
本文提出一种基于策略梯度优化的元强化学习方法,该方法不但可以在学习新任务时快速利用之前相关任务的经验,还能自动识别任务相关信息来避免局部最优解。实验结果表明,该方法可以有效解决如稀疏奖励 3D 视觉导航等复杂问题。
Aug, 2020
调查了深度强化学习中迁移学习方法的最新进展,提供了对目标,方法,兼容强化学习骨架以及实际应用等方面分析的框架,并从强化学习的角度探讨了迁移学习与其他相关话题之间的联系和潜在挑战。
Sep, 2020
介绍了一种新的多任务算法用于强化学习任务,该算法显着减少了探索的每个任务的样本复杂性,并保证不会出现负转移,与对应的单任务算法相比具有可比性。
Sep, 2013
本文提出了一个新的任务转移框架,通过专家偏好作为指导,无需明确的成本函数,随着增强的 Adversarial MaxEnt IRL,学习目标代价函数和轨迹分布,并通过选择结果生成更多的轨迹,实验证明了该方法的效果。
May, 2018