使用离线强化学习进行通知的多目标优化

Jul, 2022

使用离线强化学习进行通知的多目标优化

Multi-objective Optimization of Notifications Using Offline Reinforcement Learning

Prakruthi Prabhakar, Yiping Yuan, Guangyu Yang, Wensheng Sun, Ajith Muralidharan

TL;DR本文提出一种基于强化学习的离线决策框架，通过解决分布偏移问题和Q值过高问题优化顺序消息决策，具有很好的在线和离线实验性能。

Abstract

mobile notification systems play a major role in a variety of applications to communicate, send alerts and reminders to the users to inform them about news, events or messages. In this paper, we formulate the near-real-time notification decision problem as a →

发现论文，激发创造

离线强化学习在实时竞价和推荐中的加速应用：模拟的潜在应用

利用模拟来加速离线强化学习与行动评估的实证研究：探讨离线强化学习与行动评估的实证研究如何受益于模拟，并提供了在RecSys和RTB中进一步促进实证研究的开放挑战和解决方案。

Sep, 2021

基于不确定性的离线强化学习与多样化Q集成

本文提出了一种基于不确定性的离线强化学习方法，考虑Q值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员-批评家算法，该算法在大多数D4RL基准测试中实现了最先进的性能。

Oct, 2021

分布式离线增强学习的通信复杂度问题

探讨了一种新颖的离线强化学习设置，其中多台分布式机器共同合作解决问题，但只允许一轮通讯，并且总信息传输量受到预算限制。对于上下文平滑贝叶斯推断、拟合普通线性模型和高斯过程这些问题，在信息论上建立了分布式统计估计器的最小max风险下限，同时提出了一种基于最小二乘估计和蒙特卡罗返回估计的学习算法，并证明它们可以实现最优风险，从而使得分布式离线RL算法达到最小max下限，此外，还证明了时间差异无法在单轮通讯环境中有效地利用所有可用设备的信息。

Feb, 2022

顺序信息设计：马尔可夫说服过程及其有效的强化学习

本文提出了一种新的序列信息设计模型——马尔科夫说服过程（MPP），并在在线强化学习环境下设计了一种有效的无后悔策略学习算法（OP4），该算法可高效地确定具有有限或无限状态和结果的优化策略，提高发件人的效用。

Feb, 2022

离线强化学习中的温和保守型Q学习

提出了一种保守但足够保证泛化性的离线学习算法Mildly Conservative Q-learning (MCQ)，其中通过分配适当的伪Q值来积极地训练OOD动作，在D4RL数据集上实验结果表明MCQ相对于之前的工作取得了显着的性能提升和优异的泛化能力。

Jun, 2022

BCRLSP：一种用于序列目标推广的离线强化学习框架

该研究使用离线强化学习模型，针对真实商业环境中的预算限制进行有序定向促销，最大化用户保留率并控制现金奖励成本，在线离线实验验证表明，该方法在长期保留客户方面比基线方法表现更好、成本更低。

Jul, 2022

非累计目标的强化学习

针对优化问题目标函数不能直接作为奖励和累计的情况，提出了一种基于Bellman最优条件下广义Bellman更新算法，其中使用一种广义操作代替原来Bellman更新规则中的求和操作。

Jul, 2023

基于混合数据集的无线网络优化的离线强化学习

本研究采用离线强化学习算法解决无线电资源管理问题，通过评估使用行为策略收集的异构数据集来提出一种新的离线强化学习解决方案，表明在适当混合数据集的情况下，离线强化学习能够产生接近最优的强化学习策略。

Nov, 2023

仅受罚Q学习用于离线强化学习

本文提出了一种约束性的离线强化学习方法EPQ，通过有选择地对易产生估计误差的状态施加惩罚，有效降低估计偏差和提升性能。

May, 2024

赌博机的窃语者：为不安静的赌博机学习通信

本研究解决了在资源有限和时间动态的情况下，不安静多臂赌博机(RMABs)模型中经典方法忽视的系统性数据错误问题。我们提出了首个针对RMABs的通信学习方法，通过有效的臂之间的信息交流，显著提升了模型在面对数据错误时的表现，证实了通信策略在优化决策中的贡献。

Aug, 2024