使用离线强化学习进行通知的多目标优化
利用模拟来加速离线强化学习与行动评估的实证研究:探讨离线强化学习与行动评估的实证研究如何受益于模拟,并提供了在RecSys和RTB中进一步促进实证研究的开放挑战和解决方案。
Sep, 2021
本文提出了一种基于不确定性的离线强化学习方法,考虑Q值预测的置信度,不需要对数据分布进行估计或抽样,并提出了一种集合多样化的演员-批评家算法,该算法在大多数D4RL基准测试中实现了最先进的性能。
Oct, 2021
探讨了一种新颖的离线强化学习设置,其中多台分布式机器共同合作解决问题,但只允许一轮通讯,并且总信息传输量受到预算限制。对于上下文平滑贝叶斯推断、拟合普通线性模型和高斯过程这些问题,在信息论上建立了分布式统计估计器的最小max风险下限,同时提出了一种基于最小二乘估计和蒙特卡罗返回估计的学习算法,并证明它们可以实现最优风险,从而使得分布式离线RL算法达到最小max下限,此外,还证明了时间差异无法在单轮通讯环境中有效地利用所有可用设备的信息。
Feb, 2022
本文提出了一种新的序列信息设计模型——马尔科夫说服过程(MPP),并在在线强化学习环境下设计了一种有效的无后悔策略学习算法(OP4),该算法可高效地确定具有有限或无限状态和结果的优化策略,提高发件人的效用。
Feb, 2022
提出了一种保守但足够保证泛化性的离线学习算法Mildly Conservative Q-learning (MCQ),其中通过分配适当的伪Q值来积极地训练OOD动作,在D4RL数据集上实验结果表明MCQ相对于之前的工作取得了显着的性能提升和优异的泛化能力。
Jun, 2022
该研究使用离线强化学习模型,针对真实商业环境中的预算限制进行有序定向促销,最大化用户保留率并控制现金奖励成本,在线离线实验验证表明,该方法在长期保留客户方面比基线方法表现更好、成本更低。
Jul, 2022
针对优化问题目标函数不能直接作为奖励和累计的情况,提出了一种基于Bellman最优条件下广义Bellman更新算法,其中使用一种广义操作代替原来Bellman更新规则中的求和操作。
Jul, 2023
本研究采用离线强化学习算法解决无线电资源管理问题,通过评估使用行为策略收集的异构数据集来提出一种新的离线强化学习解决方案,表明在适当混合数据集的情况下,离线强化学习能够产生接近最优的强化学习策略。
Nov, 2023
本研究解决了在资源有限和时间动态的情况下,不安静多臂赌博机(RMABs)模型中经典方法忽视的系统性数据错误问题。我们提出了首个针对RMABs的通信学习方法,通过有效的臂之间的信息交流,显著提升了模型在面对数据错误时的表现,证实了通信策略在优化决策中的贡献。
Aug, 2024