Vlearn:基于高效状态 - 价值函数估计的离策学习
在深度神经网络上,使用 Parameter-Based Value Functions 和 Policy Evaluation Networks 的 Actor-Critic 框架,学习单一价值函数来评估和改进 RL 策略,并通过学习少量的探测状态和行动映射来提取关于环境的重要抽象知识。
Jul, 2022
提供了一种新的方法来训练演员 - 评论家框架中的评论家,使用新的状态 - 值函数逼近,并相对于平均值学习状态(响应地状态 - 动作对)的值,而非如传统的演员 - 评论家算法所学习的绝对值,这种方法证明了其在各种连续控制任务和算法中具有理论上的一致性和实证改进,特别是在奖励稀疏的任务中。
Oct, 2020
我们提出了第一种同时适用于状态值和策略函数逼近的政策梯度算法,保证在离线学习下收敛,解决了动作表示问题带来的高维 “诅咒” 问题,这些算法是基于基于平均状态值函数目标的渐变高演员 - 评论家和强调梯度的高演员 - 评论家推导而来,能够保持所有经典 Actor-Critic 方法的优点,并且在功能逼近方面被证明是可收敛的。
Feb, 2018
本文介绍了一种从无指向性状态体验(即(s,s',r)三元组,没有动作标签的状态转换)中学习价值函数的方法,该方法基于 Q-learning 将离散潜在变量预测模型中产生的离散潜在动作与值函数联系起来,并实验证明其效益。
Apr, 2022
使用新类别的分散式算法 - V-learning 解决了多智能体强化学习中联合行动空间指数级增长的问题,在有限态和操作情况下,能够学习 Nash 均衡、相关均衡和粗略相关均衡。
Oct, 2021
本文提出了一种名为 CSVE 的保守状态价值估计方法,利用惩罚来学习保守的 V 函数,应用于实际的演员 - 评论家算法中,具有更有效的数据策略优化和保守价值保证。在 D4RL 的经典连续控制任务中,我们的方法表现比保守 Q 函数学习方法更好,并在最近的 SOTA 方法中占据了强有竞争力的地位。
Feb, 2023
本研究介绍了 VA-learning 方法,通过学习优势函数和价值函数的直接引导,而不需要参考 Q 函数,从而提高了样本效率,并且在 Atari-57 游戏上,VA-learning 的表格实现和深度强化学习代理都能够获得比 Q-learning 更好的表现,同时还揭示了 VA-learning 和 dueling architecture 之间的紧密联系。
May, 2023
本研究针对离线强化学习问题,研究了在实践中越来越受到关注的离线值函数逼近方法,发现其需要有限制的覆盖条件或超出监督学习的表示条件,并提出了所谓的过覆盖现象,阐述了在线和离线强化学习之间的巨大分离性,最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。
Nov, 2021
混合符号奖励环境中,重新考虑原有策略更新方法的安全性,通过解决数值估计误差的问题和不显式地最大化 Q 值的方法,提出了新的离策略演员 - 评论家方法,以提高深度强化学习算法在连续动作空间中的学习效果。
Nov, 2023
研究非策略性评估和优化在连续行动空间中的应用,提出基于半参量法的双重稳健非策略性估计模型,并证明了其对策略函数估计误差或回归模型的估计误差具有稳健性。该模型对于最优个性化定价和资源分配具有应用价值。
May, 2019