离线强化学习在实时竞价和推荐中的加速应用：模拟的潜在应用

Sep, 2021

离线强化学习在实时竞价和推荐中的加速应用：模拟的潜在应用

Accelerating Offline Reinforcement Learning Application in Real-Time Bidding and Recommendation: Potential Use of Simulation

PDF

Haruka Kiyohara, Kosuke Kawakami, Yuta Saito

TL;DR利用模拟来加速离线强化学习与行动评估的实证研究：探讨离线强化学习与行动评估的实证研究如何受益于模拟，并提供了在 RecSys 和 RTB 中进一步促进实证研究的开放挑战和解决方案。

Abstract

In recommender systems (RecSys) and real-time bidding (RTB) for online advertisements, we often try to optimize sequential decision making using bandit and reinforcement learning (RL) techniques. In these applica

reinforcement learning offline reinforcement learning off-policy evaluation simulation real-time bidding

发现论文，激发创造

离线强化学习的偏好调查

利用学习到的环境模型，在完全离线的环境中提出了一种离线基于偏好的强化学习算法 Sim-OPRL，通过模拟轨迹获取偏好反馈，对于超出分布的数据采用悲观方法，对于获取最优策略相关的信息采用乐观方法，提供了关于样本复杂度的理论保证，最后通过在不同环境中的实验结果展示了 Sim-OPRL 的经验性能。

Jun, 2024

离线强化学习在推荐系统中的机遇与挑战

该研究综述了利用离线强化学习应对推荐系统中数据效率低下的问题，着重介绍了现有文献在该领域的研究成果，同时强调了该领域面临的挑战、机遇和未来研究方向。

Aug, 2023

具有偏倚离线数据和不完善模拟器的强化学习基准

许多强化学习应用中，很难让智能体在真实世界中行动，这给自动驾驶、医疗应用甚至某些推荐系统带来了困扰。本研究概述了强化学习中将离线数据与不完善模拟器相结合的四个主要挑战，并构建了 “机械离线强化学习基准”（B4MRL）来推动该领域的研究。结果表明，这些基准对未来研究至关重要。

Jun, 2024

自适应数据采集的增强学习离线策略评估

本文针对相对于通常的数据收集方式更加广义的数据收集方式下离线 RL 算法的理论保证问题进行研究，并探讨 TMIS Offline Policy Evaluation 在 tabular MDPs 下的最小最优保证问题及实验分析。

Jun, 2023

优化生产投标策略的离线强化学习

通过离线强化学习从真实数据中学习，我们提出了一种通用方法来优化生产环境中的竞价策略，这种方法可以用于优化任何可微分的基础策略，并且只需要由基础策略自身生成的数据。我们使用混合代理架构将任意基础策略与深度神经网络结合起来，在训练后仅部署优化的基础策略参数，而神经网络部分被丢弃。我们证明这样的架构在模拟和生产竞价环境中都能取得统计上显著的性能提升。我们的方法不会产生额外的基础设施、安全或可解释性成本，因为它直接优化现有生产流程的参数，而不是用类似神经网络的黑箱模型替换它们。

Oct, 2023

何时信任你的模拟器：动态感知的离线与在线混合增强学习

本研究提出了一个新的混合离线 - 在线强化学习范式，通过使用有限的真实数据和不受限制的模拟器探索来解决两种方法的缺陷，并在通过广泛的仿真和实际任务以及理论分析中证明了 H2O 优于其他跨域在线和离线强化学习算法，从而为解决实际的复杂任务提供了全新的思路。

Jun, 2022

基于轨迹的迭代强化学习框架用于自动投标

在线广告中，通过使用增强学习的自动竞价算法，部署多个自动竞价代理进行数据收集与训练，提出了一种迭代的离线增强学习框架，通过轨迹的探索和利用方法进行数据采集与利用，以解决传统离线增强学习算法的有效探索和开发性能瓶颈，并结合安全探索和适应性行动选择来确保在线探索的安全性和数据集质量，通过阿里巴巴展示广告平台的实际和离线实验，验证了所提出方法的有效性。

Feb, 2024

使用离线数据进行高效在线强化学习

本研究提出了一种简单的方法，利用离线数据来解决在线强化学习中的效率和探索性问题，通过对现有离线策略学习算法进行改进，得出了可以在各种竞争对手的基准测试中比现有方法提高 2.5 倍的建议。

Feb, 2023

主动离线策略选择

本文提出了一种新颖的顺序决策方法 —— 主动离线策略选择，该方法结合了在线交互和记录数据，利用基于贝叶斯优化和策略相似性的内核函数，通过多个基准测试，包括实际机器人应用，证明该方法改进了最新的离线策略评估估计和纯在线策略评估，解决了缺乏在线交互数据的策略选择问题。

Jun, 2021

离线基于偏好的奖励学习的基准和算法

本文提出了一种利用离线数据进行偏好学习的方法，通过基于池的主动学习生成偏好查询，学习奖励函数的分布，通过离线强化学习优化相应的策略，从而使代理人能够在未显示的离线数据中学习执行新任务。

Jan, 2023