快速高效的垒位策略优化：超越普拉基特–卢斯模型

Aug, 2023

快速高效的垒位策略优化：超越普拉基特–卢斯模型

Fast Slate Policy Optimization: Going Beyond Plackett-Luce

Otmane Sakhi, David Rohde, Nicolas Chopin

TL;DR大规模机器学习系统的一个关键组成部分是返回选项列表；这篇论文在给定任意奖励函数的情况下，通过在决策函数上应用一种新的松弛技术，提出了一种简单而高效的学习算法来优化这些大规模决策系统，能够扩展到庞大的动作空间规模，相比常用的 Plackett-Luce 策略类，证明了该方法的有效性。

Abstract

An increasingly important building block of large scale machine learning systems is based on returning slates; an ordered lists of items given a query. Applications of this technology include: search, information

large scale machine learning slates decision systems policy optimization massive action spaces

发现论文，激发创造

基于强化学习的创作素材推荐

通过使用变分自编码器学习连续、低维的隐空间，从而在连续的潜在空间中选择筛选项，最终被解码成对应的筛选板，从而提高推荐系统的效果和多样性。

Jan, 2023

基于非当前策略的推荐策略评估

本文研究了基于上下文的推荐策略（例如排名）的评估方法，在组合赌博技术的基础上引入了一种新的实用估计量，该方法可以使用已记录的数据估计政策的绩效，经过全面的实证评估，我们的估计器在多种设置下都很准确，包括在学习排序任务中作为子程序，我们导出了我们的估计器无偏的条件，这些条件比之前的推荐评估启发式要弱，并在实验中比参数方法具有更小的偏差，即使这些条件被违反。最后，我们的理论和实验也表明，与一般的无偏估计相比，所需的数据量呈指数级节约。

May, 2016

SlateFree: 一种基于模型的分解方法用于带有分段动作的强化学习

提出了一种基于强化学习的新算法 SlateFree，使用 MDP 框架，将大量的物品进行分组，通过 Q-learning 算法进行在线学习，能够有效地解决顺序推荐问题。

Sep, 2022

使用关注力的深度强化学习用于拥有高维状态和动作的 Slate Markov 决策过程

介绍了一种新的深度 Q 学习算法，用于处理高维度下的推荐系统问题，该算法将基于特征表示的深度 Q 学习与 Slate Markov 决策过程相结合，优化了策略的组合和序列属性，并采用深度确定性策略梯度和风险探索，提高了智能体的性能和发现潜在策略的能力。

Dec, 2015

基于石板的推荐系统的强化学习：可行的分解和实用方法论

该研究提供了使用深度强化学习技术解决个性化推荐系统中长期用户参与度问题的方法，通过分解价值函数，考虑了物品组合效应，并实验证明了该方法的可行性和扩展性。

May, 2019

基于低秩框架的推荐系统中的表示学习

提出了一种在推荐系统中使用强化学习优化推荐结果的样本高效表示学习算法，并构建了推荐模拟环境来解决这个问题。

Sep, 2023

基于分布式的离线策略评估：面向推荐系统的多项式建议

提出了一种估计多个物品推荐策略的完整离线性能分布的估计器，并确定了估计器无偏且一致的条件。通过在合成数据和基于真实世界数据（MovieLens-20M）构建的推荐模拟器上进行实证验证，结果表明相比以前的工作，在各种推荐类型的情况下，估计方差显著减小，并且样本效率提高。

Aug, 2023

生成器和评论家：一种用于电子商务中 Slate 重新排名的深度强化学习方法

本篇研究提出了一种基于生成器和评论家的石板重排方法，其中评论家评估石板，生成器通过强化学习方法对项目进行排名。通过 PPO-Exploration 探索算法进行生成器的排名，取得了比现有强化学习方法更好的效果，有效提高了石板的效率和多样性在世界上最大的电子商务网站的实验中。

May, 2020

Slate 离策略评估的控制变量

本文研究了具有多维动作，即石板的批量上下文强化学习的现实场景 —— 推荐系统和用户界面优化 —— 中的离线策略评估问题。通过控制变量，我们考虑了一类包括伪逆估计器（PI estimator）和（渐近地）自归一化 PI 估计器在内的无偏估计器，通过优化这一类得到的新估计量具有比 PI 和自归一化 PI 估计量更好的风险收敛性。真实世界的推荐数据和合成数据的实验验证了这些改进的实际效果。

Jun, 2021

通过优化概括方法评估推荐策略的离策略算法

我们开发了一种用于预测多维动作的选择问题中离线策略评估的新方法，称为潜在 IPS（LIPS），它通过在低维抽象空间中优化抽象来最小化 LIPS 的偏差和方差，从而显著减小 IPS 的方差并避免对奖励函数结构进行过多的限制性假设，通过实证评估，我们证明 LIPS 在非线性奖励和大型抽象空间的场景中明显优于现有的评估方法。

Feb, 2024