- 离线策略学习中对规范化重要性采样的悲观性统一 PAC-Bayesian 研究
通过引入一种全面的 PAC-Bayesian 框架来研究规范化重要性权重,我们提出了一个可验证的 PAC-Bayesian 泛化界限,该界限广泛适用于常见的重要性权重规范化方法,从而在单个框架内进行比较。我们的实证结果挑战了常见的认知,证明 - 数据高效的通用值函数评估的自适应探索
GVFExplorer 通过使用方差估计和行为策略更新,实现了同时评估多个 GVFs 并减少环境交互的数据效率学习方法。
- 线性函数逼近的离策多步 TD 学习分析
本文分析了在线性函数逼近、离策略学习和自举的 “致命三角” 场景中的多步 TD 学习算法,并证明了当采样周期 n 足够大时,n 步 TD 学习算法收敛到一个解。基于这些发现,提出并分析了两种 n 步 TD 学习算法,这些算法可以视为梯度和控 - POTEC:基于两阶段策略分解的大动作空间离线学习
通过提出一种新的两阶段算法 POTEC,利用动作空间的聚类和基于策略以及回归的方法,研究了大规模离散动作空间中上下文赌博机政策的离线学习问题,结果显示 POTEC 在特别是大且结构化的动作空间中显著提高了离线学习的效果。
- AMAGO:面向自适应代理的可扩展上下文强化学习
AMAGO 是一个上下文强化学习代理,使用序列模型解决泛化、长期记忆和元学习的挑战,通过重新设计离策略上下文方法,能够训练长序列 Transformer 以整合端到端强化学习,在元强化学习和长期记忆领域展现出强大的实证性能,并且在稀疏奖励和 - 内容市场中的离策略学习广告负载平衡
在线广告平台中,通过应用离线数据采集的反例权重评估方法和双重保守法,以最大程度提高用户满意度和广告收入为目标,解决了广告负载平衡问题。在超过 8000 万用户和 2 亿次会话的实施规模的在线 A/B 测试中,发现用户满意度指标和广告收入都有 - 直接梯度时差学习
提出一种直接解决双重采样问题的方法,通过在逐渐增大的马尔可夫数据流中使用两个样本,该算法在计算上与 Gradient Temporal Difference (GTD) 一样高效,但摆脱了 GTD 的额外权重,而唯一的代价是随着时间的推移, - 一种仅使用一个步长的新渐变 TD 算法:使用 $L$-$λ$ 平滑性进行收敛速率分析
本文介绍了一种名为 Impression GTD 的全新 GTD 算法,通过最小化期望 TD 更新的范数目标实现单时间尺度,并证明该算法的收敛速度至少为 O (1/t),甚至更快。同时,与现有的 GTD 算法相比,该算法在在线学习和离线学习 - ICML并行 Q 学习:在大规模并行仿真下扩展离策略强化学习
本研究介绍了一种并行的 Q 学习方案(PQL),通过并行化数据收集、策略学习和值学习,在墙钟训练时间上优于 PPO 算法,并保持了离策略学习的高样本效率。
- 可靠的剂量组合离策略学习
该研究提出了一种可靠的离策略学习方法,该方法使用个性化神经网络建模联合多个剂量依赖剂量的效果,并使用条件标准化流估计广义倾向得分,以找到共享协变量 - 治疗空间中重叠有限的区域,为确定最优个性化剂量组合提供可靠的策略估计,证明了方法有效性。
- DoMo-AC: 双重多步骤离线 Actor-Critic 算法
介绍了一种新方法 doubly multi-step off-policy VI (DoMo-VI) 和其实例 doubly multi-step off-policy actor-critic (DoMo-AC),通过结合 policy - ICML离线学习的指数平滑
本文提出了一种对 IPS 进行正则化的方法,并推导出了一个可扩展的双边 PAC-Bayes 泛化界限,该界限适用于标准 IPS,证明了正则化 IPS 的实用性以及性能优越性,并提出了一种可以不需要正则化的区分情形。
- 利用对称性和启发式演示的离线策略强化学习在机器人操纵中的应用
本研究旨在定义和纳入物理机器人环境中的自然对称,利用行为克隆和强化学习相结合的方法,通过专家演示在对称环境下训练高效的模型无关强化学习策略,为普通操作任务的学习性能提供了新的可行方法。实验研究结果显示,相较于传统的策略外学习算法,该方法具有 - 不确定性感知的离线学习
本研究通过显式建模不确定性,并提出一种不确定性感知的倾向得分估计器(UIPS),可改进离线策略优化,实验结果表明其比现有方法更具有样本效益。
- 反步时间差分学习
本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法(包括 GTD 和 TDC)的统一视角,并提出了一种基于后掠技术的新的收敛算法,最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。
- 无需重要性采样的 Actor-Critic 方法的离线校正
本文研究了基于离线数据的深度强化学习算法,提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力,并且证明了该方法可以实现安全的离线学习。实验证明,该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。
- 学习排序的悲观离线策略优化
本文研究基于数据采集的 “离线学习” 在推荐系统中的应用,提出了基于点击模型的悲观离线排序学习方法,经过实验和分析表明其优越性和通用性。
- AAAI面向运行时不确定性的鲁棒离线学习
论文提出了一种针对运行时不确定性的离线评估方法,该方法允许所得的估算器不仅对预期中的运行时不确定性具有鲁棒性,还对观察到的和意外的运行时不确定性具有鲁棒性,并且有效地证明其在仿真和现实世界在线实验中的鲁棒性。
- 链式价值函数用于离策略学习
该论文提出了一种新的家族离线预测算法,通过构建一系列价值函数来实现稳定的模型迭代,算法收敛且可以有效的处理离线强化学习过程中的问题。
- ICMLPEBBLE: 通过重标记经验和无监督预先训练实现高效互动式强化学习
本文提出了一种基于人机交互的强化学习方法,通过主动查询教师偏好,学习奖励模型并使用其训练智能体,使智能体能够学习更加复杂的任务,包括各种运动和机器人操作技能。与标准奖励函数相比,我们的方法能够利用实时人类反馈有效地预防奖赏利用和学习新行为。