- MM联网自动化混合动力车环保驾驶的安全基于模型的离线策略强化学习
本研究探讨将 Safe Off-policy Model-Based Reinforcement Learning 算法应用于连接的自动化混合动力车辆的生态驾驶问题。结果表明,在模拟实验中,该算法表现出更高的平均速度和更好的节能效果,与基线 - 分解 Soft Actor-Critic 方法用于合作多智体强化学习
本文提出了一种新的分解式多智能体软演员 - 批评家(mSAC)方法,在 StarCraft II 微观管理合作式多智能体基准测试中获得高效和优异的性能。
- ICML使用目标网络打破致命三角
本文研究了使用目标网络作为打破致命三元组的工具,提出了一种新的目标网络更新规则,并在多个离散算法中应用目标网络和岭回归来证明其收敛性。
- AAAI梯度预期 Sarsa ($λ$) 的收敛性
本研究针对线性函数近似下的 Expected Sarsa 算法的收敛问题,通过提出收敛性较好的 Gradient Expected Sarsa 算法,并应用 Lyapunov 函数技术分析其性能,得到较优实验结果。
- 离策略多智体分解策略梯度
本文研究多智能体问题中现有的算法相比于最先进的价值方法存在的性能差异,并提出了一种多智能体分解的策略梯度方法,该方法引入了价值函数分解的想法,并针对离散和连续动作空间中的集中 - 分散不匹配和信用分配问题进行了解决。实验结果表明,该方法在同 - KDD带有不足支持的离线策略赌博机
本文针对每日实际情况中,由于行动空间的限制,不能在所有情境下为每一个行动确定非零概率而产生的不足支持数据的问题,提出在限制行动空间、奖励外推和限制策略空间三个方法领域内提出的 IPS 补丁方法,分析了三种方法的统计性和计算性属性,并进行实证 - 一般下界 Q-learning 的自我模仿学习
通过引入新的 n 步下限并引出一种新型的自我模仿学习算法,将 self-imitation learning 和 lower-bound Q-learning 相结合,旨在优化 off-policy 学习过程中的性能。研究发现 n 步下限 - 截断连续分布分位数评论家混合来控制高估偏差
本文探讨了一个新方法,通过分布式表示、截断和多评估器的集成,有助于减轻连续控制环境下的高估偏差,并在连续控制基准测试套件中获得了良好的成绩。
- 一个自调节的演员 - 评论算法
本文介绍了一种使用 metagradients 自动调整强化学习中超参数的算法 (Self-Tuning Actor-Critic),此算法能够增加自主任务的数目并使用一个新颖的 leaky V-trace operator 来提高脱机学习 - 基于协变量偏移的对外有效性的非策略评估与学习
该研究旨在探讨如何利用历史数据评估和训练新政策,避免协变量偏移的问题,并提出有效的估算器和比较其理论性质。
- ICML使用深度确定性动态梯度估计 Q (s,s')
本文提出了一种新型的价值函数 Q (s, s'),用于表达从状态 s 转移到邻近状态 s' 并在此之后最优行动的效用,通过构建能够最大化 Q 值的前向动力学模型,得出最优策略并实现离线学习。该方法在价值函数转移、冗余行动空间内学习和在末优策 - 排名策略梯度
本文提出了一种名为排名策略梯度方法(RPG)的强化学习方法,它可以提高样本有效性,实现离线学习,同时大大降低了状态空间维度的影响。实验结果证明,在离线学习框架中,RPG 方法可以较大程度降低样本复杂度,从而与现有技术相比具有更好的性能。
- 深度强化学习与致命三角
研究死亡三元组对于经验回放训练的深度 Q 网络模型的影响,分析该系统的组件在死亡三元组的出现和代理的表现中的作用。
- 使用强调加权的离线策略梯度定理
本文提出了第一个适用于 off-policy learning 的 policy gradient 定理,并通过使用 emphatic weightings 导出了简化的梯度公式,并使用 Actor Critic with Emphatic - 元策略梯度学习探索
该研究论文提出了一种基于 `meta-policy gradient` 算法的自适应学习方法,可用于解决现有基于添加噪声的探索方法仅能探索接近 actor 策略的局部区域的问题,从而实现独立于 actor 策略的全局探索,而这对各种强化学习 - 基于视觉的机器人抓取的深度强化学习:一种离线策略方法的仿真比较评估
本文研究基于视觉的机器人抓取中的深度强化学习算法,提出了一个模拟的基准测试对齐机器人抓取任务,评估了基准测试任务的不同 Q 函数估计方法,结果表明简单方法可以成为流行算法的强有力竞争对手,此外还阐明了算法的相对权衡
- 带函数逼近的收敛树备份和 Retrace 方法
该论文通过分析 extsc {Tree Backup} 和 extsc {Retrace} 算法在线性函数逼近下的不稳定性,提出了一种基于二次凸凹鞍点公式的稳定高效梯度下降算法,并证明了其收敛性和有限样本上界,同时还提供了对其他算法收敛 - NIPS反事实学习方法的大规模验证:一个测试平台
本研究提供并使用实际数据和标准测试平台,基于广告展示探索了历来研究最新的无政策评估和学习方法(如双重优化、POEM 和基于回归基线的监督学习),结果表明最新的无政策学习方法可以改进大规模真实世界数据集上的历史最优监督学习技术。
- 带离线修正的 Q ($λ$)
这篇论文提出和分析了一种替代的离线多步时间差异学习方法,在其中离线返回校正与当前的 Q 函数以奖励形式相关,而不是与目标策略以转换概率相关,证明了这种近似校正在离线评估和控制中足以实现离线收敛条件,并对连续状态控制任务进行了理论关系的实证。
- 通过软更新降低强化学习中的噪声
提出 G-learning 算法用于强化学习领域,该算法通过对决策策略进行惩罚,实现了对值函数估计的减少偏差,从而在学习过程的初期能够有更快的收敛速度并降低学习成本。