面向使用人类反馈进行离线策略排序的强化学习

Jan, 2024

面向使用人类反馈进行离线策略排序的强化学习

Towards Off-Policy Reinforcement Learning for Ranking Policies with Human Feedback

Teng Xiao, Suhang Wang

TL;DR本文提出了一种新的离线值排名 (VR) 算法，可以在统一的期望最大化 (EM) 框架中同时最大化用户的长期回报和优化排名度量，以提高样本效率。理论和实证研究表明，EM 过程指导了学习策略，从而在没有任何在线交互的情况下享受未来回报和排名度量的优势。广泛的离线和在线实验证明了我们方法的有效性。

Abstract

probabilistic learning to rank (LTR) has been the dominating approach for optimizing the ranking metric, but cannot maximize long-term rewards. reinforcement learning models have been proposed to maximize user lo

probabilistic learning to rank reinforcement learning sequential decision-making off-policy value ranking sample efficiency

发现论文，激发创造

基于强化学习的统一离线学习排序

在这篇论文中，我们利用强化学习中的离线学习技术，提出了一种与点击模型无关的通用排序方法 Click Model-Agnostic Unified Off-policy Learning to Rank（CUOLR），通过将排序过程视为一个马尔可夫决策过程，实现了对各种类型的点击模型的自适应，实验结果表明，CUOLR 在不同的大规模数据集上均优于现有的基于离线学习的排序算法，并能在不同的点击模型下保持一致性和鲁棒性

Jun, 2023

电子商务搜索引擎中的强化学习排序：形式化、分析和应用

本论文提出使用强化学习等算法解决电子商务平台中的多步排名问题，并通过模拟和淘宝搜索引擎实验，与在线学习到排名方法相比，获得了高于 40％和 30％的总交易金额增长。

Mar, 2018

通过基于策略的强化学习优化基于拍卖的推荐系统的长期价值

本研究利用强化学习中的时差学习算法优化基于竞拍的推荐系统，实现一步政策改进方法并优先考虑长期用户参与度指标。在处理数十亿次曝光和用户日活跃用户的基于拍卖的推荐系统的在线 A / B 测试中，我们经验性地证明了我们的方法在长期用户参与度指标方面优于当前生产系统。

May, 2023

一种基于排名的模仿学习游戏

本文提出了一种将模仿学习看作是一种基于排名的二人游戏的新框架，并使用一种新型排名误差来实例化该框架，从而同时学习专家演示和偏好，实现了两种模态的优势，并在 Learning from Observation (LfO) 环境中实现了先进的样本效率和可扩展性。

Feb, 2022

对抗性批量逆强化学习：从不完美的演示中学习奖励，用于交互式推荐

在本研究中，我们提出了一种新颖的批量逆向强化学习模型，通过使用折扣的稳态分布修正结合学习奖励 (LTR) 和推荐代理评估，同时满足组合要求，并通过贝尔曼转化和 KL 正则化来改进效果和效率。

Oct, 2023

排名公平性的政策学习

本文提出了一种利用随机排序策略来进行公平学习及考虑排序项影响的通用 LTR 框架，并通过基于政策梯度方法的 Fair-PG-Rank 算法进行优化，可在保持曝光公平性的情况下优化各种效用指标。通过实验结果验证了此方法在个人和集体公平性方面的有效性。

Feb, 2019

利用策略奖励学习对语言模型进行微调

提出了一种基于策略的奖励学习（RLP）无监督框架，通过使用策略样本来完善奖励模型，以保持其在分布上的一致性，实验结果表明 RLP 在三个基准数据集上始终优于现有技术。

Mar, 2024

超越人类偏好：通过 LLMs 探索强化学习轨迹的评估与改进

基于偏好的强化学习利用大型语言模型生成自动偏好数据，并通过重构奖励函数来优化强化学习训练，在复杂环境中加速收敛并提高效果。

Jun, 2024

PrefRec: 基于用户偏好的推荐系统用于增强长期用户参与

本文提出了一种名为 PrefRec 的新模型，它基于用户历史行为的喜好训练基于强化学习的推荐器，可有效地优化长期用户参与度，在大量的实验中，PrefRec 在所有任务中显着优于之前的最先进方法。

Dec, 2022

可证明离线强化学习与人类反馈

研究离线强化学习中的难点问题，利用最大似然估计从离线数据中估计隐式奖励，并在 MLE 的置信区间内解决分布鲁棒规划问题，引入了新的单一策略浓缩系数测量。

May, 2023