细致估计,大胆探索
本文提出了一种新颖的基于偏好的 epsilon-greedy 探索算法,以数据效率为主要目标,并使用深度 Q 学习的算法作为研究对象,理论证明了这种算法在策略改进方面的有效性,并且实验证明了与相应的 Q 值风景线的拟合优良以及在四种著名的 DQN 变体中的优越表现。
Jun, 2022
研究在强化学习中的探索和利用的权衡,通过解决探索感知标准来获得最优政策,结果是在表格和深度强化学习算法中应用简单变化并在离散和连续动作空间中,相对于非探索感知对应物表现出更好的性能。
Dec, 2018
本文提出一种新的双粒度 Q 函数,通过探索最有前途的响应类型来介入采样,从而解决自然语言行动空间巨大所带来的效率问题,在多个设计用于识别人类情感细节的奖励函数中,以离线强化学习的方式学习,我们的算法在实证研究中表现优于基线方法,进一步验证表明我们的方法可以生成更高期望奖励和可控性响应。
Mar, 2023
我们提出了一种新的分析方法,并区分了探索技术的两个不同影响。首先,它们使得能够平滑学习目标并消除局部最优解,同时保留全局最优解。其次,它们修改了梯度估计,增加了随机参数更新最终提供最优策略的概率。在这些影响的基础上,我们讨论并通过熵奖励进行了实证研究,突出了其局限性,并为该策略的设计和分析开辟了未来的研究方向。
Jan, 2024
混合符号奖励环境中,重新考虑原有策略更新方法的安全性,通过解决数值估计误差的问题和不显式地最大化 Q 值的方法,提出了新的离策略演员 - 评论家方法,以提高深度强化学习算法在连续动作空间中的学习效果。
Nov, 2023
本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域,并提出将单个随机操作选择替换为随机目标选择,该方法与任何基于好奇心的探索和脱机强化学习代理兼容,并生成比单个随机操作更长且更安全的轨迹。
Jul, 2018
研究探讨了在连续时间内通过采用熵正则化奖励函数促进探索和利用现有知识之间达到的最佳折衷方案,提出使用行为分布的微分熵来规范化奖励函数的熵正则化,并通过高斯分布表征推导出最佳反馈控制分布来平衡利用和探索性搜索,最后通过熵正则化 LQ 问题的解法证明当探索比重衰减至零时,解法能够收敛于经典 LQ 问题的解。
Dec, 2018
该研究探讨了在基于价值的深度强化学习过程中的奖励构造,并在此基础上提出了正向奖励构造可以实现保守型利用、负向奖励构造则有助于优化探索等观点,建立了一套实现快速收敛的解决方案。
Sep, 2022
为了在现实世界的系统中部署一种强化学习代理,必须对学习过程提供保证。我们研究了保守型探索问题,在此问题中,学习者必须至少能够保证其性能至少与基线策略相当好。我们提出了第一个适用于连续有限时间问题中策略优化的保守型可证明高效无模型算法。我们利用重要性抽样技术,通过算法自动生成的数据来反事实地评估保守条件。我们推导了一个遗憾界限,并且展示了在学习过程中从未违反保守约束条件的(高概率)证明。最后,我们利用这些见解,通过离策略策略评估技术构建了一般的深度强化学习保守型探索模式。我们经验证明了我们方法的有效性。
Dec, 2023