- 切换损失减少批处理强化学习成本
我们提出使用对数损失函数训练拟合 Q - 迭代(FQI-LOG)进行批量强化学习。我们证明了使用 FQI-LOG 学习接近最优策略所需要的样本数量与最优策略的累积成本成比例,而在问题中,如果行为最优则可以达到目标且不会产生成本,所以最优策略 - 斯塔克伯格批量策略学习
本研究提出了一种基于 Stackelberg 的学习算法,用于批量强化学习中的政策学习问题,通过采用领导者 - 追随者结构的博弈论视角,该算法具有收敛性保证和对不同 iable Stackelberg 均衡的收敛性保证,实验证明其在批处理强 - KDD利用强化学习实现多任务融合,提升推荐系统的用户长期满意度
该研究结合用户粘性和主动性两个方面,提出了一种基于批量强化学习的多任务融合框架(BatchRL-MTF),以长期用户满意度为最终目标,部署于大规模工业短视频平台。
- KDD众包数据的批量强化学习
通过从偏好中学习奖励函数,本文解决了批量强化学习设置中缺乏奖励的问题,并提出了一种新的概率模型来建模标签的可靠性,利用协作的标签来平滑估计。在 Atari 数据集上的评估证明了所提出的模型的有效性,并进行了消融研究以分析所提出的想法的相对重 - ICML批量强化学习中三种正则化方法的比较与统一
本篇论文研究了在批量强化学习中,如何利用加正则化的方法解决由于样本不足或过于复杂导致的模型准确度不高和性能不佳的问题,并通过实验验证了在相同的加正则化措施下,MDP 结构和数据集中状态 - 动作对的分布如何影响其性能表现。
- 针对折扣设置的 Wang-Foster-Kakade 下限变形
本文研究了在有限时间和与折扣因素相关的情况下,批量强化学习中价值函数和特征覆盖的硬度,并说明了即使有无限数量的数据,学习也无法进行。
- 几乎极小化最优无奖学习
研究奖励免费强化学习框架,提出新的有效算法 SS+TP,通过探索和计划两个阶段,分别进行轨迹收集和任意奖励函数优化,达到对多个奖励函数的策略优化。
- ICML仅具可实现性的批次值函数逼近
该研究提出了一种 batch reinforcement learning 的学习算法 BVFT,通过一种基于比较和分区的机制使得学习效率更高并且适用于其他问题和扩展。
- 可证明的好的无须强探索批量强化学习
本文介绍了一种基于 Bellman 备份的批量强化学习算法,它采用一种更加保守的更新策略来提高输出策略的性能保证,并通过演示 MDP 示例和在标准基准测试中的实证比较来突出了我们保守更新的必要性和以前算法和分析的局限性。
- 批量强化学习中的 Q * 逼近算法:一个理论比较
本文涵盖了两种用于近似 Q 星算法在批量强化学习中表现的性能保证,并与传统的迭代方法进行了比较,证明了这些方法可以通过估计贝尔曼误差,仅依靠批数据和输出静态策略的算法,享受与任务无关的线性迭代时间性质。 其中一种算法使用了新颖而明确的重要性 - 无限时间序列强化学习中具有混淆鲁棒性的策略评估
通过数据策略辅助下的敏感性模型,我们开发了一种强健的方法,针对诸如教育和医疗等批量强化学习的应用中未被观察到的变量,估计了一个无限时间阶段内给定策略值的尖锐边界。我们证明,随着我们收集更多混淆数据,我们能够收敛于尖锐的边界。虽然检查集合成员 - 批量强化学习和控制中的策略污染
本研究针对批量强化学习和控制中的安全威胁进行了探讨,该攻击旨在污染所学策略。案例针对强化学习中的表格确定等价学习器和控制中的线性二次调节器进行了实例化,并表明了两个实例均可实现全局最优解。
- KDD软基线增强的安全策略改进
本文通过采用基于基线的自举算法 (SPIBB),允许在更广泛的策略集合上进行策略搜索,通过控制局部模型不确定性来约束政策变化,对捕获不良行为的风险进行更全面的评估,实验结果表明相对于现有的 SPI 算法,本文提出的方法在有限 MDP 和具有 - ICML基准引导的安全策略改进
本文提出了一种名为 SPIBB 的方法,通过基线引导来提高策略,保证其至少与基线策略一样好,尤其在神经网络表示系统的批处理数据中,相比现有算法在安全性和均值性能方面有更好的表现。
- 深度强化学习的浅层更新
本研究提出了一种名为最小二乘深度 Q 网络 (LS-DQN) 的混合方法,它将由深度强化学习算法学习的丰富特征表示与线性最小二乘方法的稳定性相结合。实验表明,与原始的深度 Q 网络 (DQN) 和 Double-DQN 相比,LS-DQN