- 基于时差异的异构变换的纵向目标最小化损失估计
我们提出了深度纵向有针对性的最小损失估计(Deep LTMLE)的新方法,用于估计纵向问题环境下动态治疗策略下结果的反事实均值。我们的方法利用了用时差学习训练的具有异质类型嵌入的 Transformer 架构。在使用 Transformer - 化合收益降低强化学习的方差
通过引入复合回报和双引导回报,本研究证明能够减小方差并提高强化学习方法的样本效率。实验证明,双引导回报可以改善 $n$ 步深度强化学习代理的样本效率,且增加的计算成本很小。
- 时间差分学习中,针对错误设计的奖励的终止状态的故意低估价值函数
本文提出了一种在终止后故意低估值以避免由于无意中的高估引起的学习失败的方法,并根据终止时的稳定度调整低估程度,从而防止由于故意低估引起的过度探索。通过模拟和真实机器人实验表明,所提出的方法能够稳定地获取各种任务和奖励设计的最优策略。
- TD 收敛性:一个优化视角
本研究探讨了时间差分(TD)学习算法的收敛行为,通过分析我们的发现,我们将其形式化应用于线性 TD 设置中的二次损失,以证明 TD 的收敛取决于两种力量的相互作用,并扩展到比线性逼近和平方损失更广泛的设置中,提供了 TD 在强化学习中成功应 - 经验回放的时间差分学习
本文介绍了一种关于 Temporal-difference (TD) 学习与经验重放的算法,并提出了对其有限时间和误差控制的方法。
- Taylor TD-learning
介绍了一种基于模型的强化学习框架 Taylor TD,通过一阶泰勒级数展开 TD 更新来降低 TD-learning 中方差的问题,并在多个基准测试任务中展示了 TaTD3 算法的表现优于多种现有基准算法。
- MAN: 多动作网络学习
我们提出了一种新的 DRL 算法 Multi-Action Networks Learning 来解决高维度大离散行动空间的问题,并实验验证得出,MAN 比当前用于大离散行动空间的异步时间差分算法更快地学习策略。
- 关于利用方差缩减方法对于随机连续环境下的时差学习进行修正
本文研究了使用时差学习算法评估连续时间进程的策略评估问题,并根据随机微分方程的时间离散化来学习连续值函数。通过为差分学习提供零均值修正,我们提出了一种鲁棒的算法,包括两种算法:一种是基于模型的算法,另一种是基于无模型的算法,其收敛性得到了证 - ICML优先级时间差分学习
在 TD 学习中,提出一种重新加权状态的方法,在更新方程中考虑到其重要性和价值估计的可靠性,证明此方法在线性函数逼近下收敛,并在实验中与其他 TD 方法进行比较。
- 长期信用分配的合成回报
本研究提出一种基于状态关联学习的方法来优化强化学习中时间差分方法的不足,并用其在 Atari 游戏的任务中获得了比现有技术快 25 倍的结果。
- 光滑非线性 TD 学习的单时间尺度随机非凸凹优化
本文介绍了两种单时间步单循环算法,分别通过动量和方差约束提高了非凸强凹随机优化问题的收敛速度,降低了数据采样量,同时在理论上证明了算法的收敛性和收敛速度。
- AAAI预期资格追踪
介绍了一种名为期望资格追踪 (expected eligibility traces) 的新方法,相比之前的资格追踪方法,该方法可以更有效地解决强化学习中信用分配问题。
- 时间差分和 Q 学习能学习表征吗?一种平均场理论
利用双层神经网络,采用均场视角证明了时序差分学习和 Q-learning 以次线性的速度全局最小化普通最小二乘 (平方投影) 贝尔曼误差,并存在一种最优解;同时,相应的特征表示收敛于最优解。
- ICML时间差分学习中的干涉与泛化
研究了时间差分学习中概括和干扰之间的联系,发现时间差分学习容易导致低干扰,欠缺概括性的参数,而这一效应在监督学习中则相反。此现象可以追溯到干扰和自举之间的相互作用,并在实验证实,希望这些新的发现可以指导未来方向的自举方法的发现。
- 神经时序差分和 Q-learning 可以被证明收敛于全局最优解
通过超参数化来解决 neural TD 的优化非线性问题,证明了 neural TD 在策略评估中以次线性速率收敛于均方 Bellman 误差的全局最优解,并进一步连接到策略梯度算法的全局收敛。
- 多时间跨度的双曲折扣与学习
本文研究强化学习的折扣问题,提出一种基于双曲贴现的 RL 代理,该代理简单有效且符合实验结果;同时发现通过学习多个时间跨度的价值函数可以提高价值型 RL 代理的性能。
- 深度品质 - 价值学习(DQV 学习)
本文介绍了一种新颖的深度加强学习算法 ——Deep Quality-Value(DQV) Learning。通过测试两个经典强化学习问题和四个 Atari 游戏,结果表明,DQV 比 Deep Q-Learning 和 Double Dee - 神经网络的时序差分学习 —— 泄漏传播问题的研究
本研究探讨用函数逼近的时序差分学习论(TD)可收敛至比蒙特卡罗回归更劣的解的问题,以及针对价值函数在出现急剧不连续的地方的逼近误差在自举更新中何以进一步扩散的问题。我们通过实证找到了泄漏扩散的证据,并论证了仅当逼近误差时,这种情况会出现。最 - 使用时序差分方法直接估计 λ 返回的方差
本文提出了一种使用强化学习中的策略评估方法来直接估计 '\lambda-return' 的方差的方法,与现有方法相比,其方法更简单且更稳健。
- 无重要性采样比率的多步非策略学习
本文提出了一种基于时序差分学习更新的无需使用重要性采样比率来学习无政策的多步学习的算法。通过变化 TD 更新中的自举量来消除重要性采样比率,该算法使用了两个时间尺度的梯度 TD 更新以实现稳定性,而且该算法的表现优于现有算法。