使用关注力的深度强化学习用于拥有高维状态和动作的 Slate Markov 决策过程

Dec, 2015

使用关注力的深度强化学习用于拥有高维状态和动作的 Slate Markov 决策过程

Deep Reinforcement Learning with Attention for Slate Markov Decision Processes with High-Dimensional States and Actions

Peter Sunehag, Richard Evans, Gabriel Dulac-Arnold, Yori Zwols, Daniel Visentin...

TL;DR介绍了一种新的深度 Q 学习算法，用于处理高维度下的推荐系统问题，该算法将基于特征表示的深度 Q 学习与 Slate Markov 决策过程相结合，优化了策略的组合和序列属性，并采用深度确定性策略梯度和风险探索，提高了智能体的性能和发现潜在策略的能力。

Abstract

Many real-world problems come with action spaces represented as feature vectors. Although high-dimensional control is a largely unsolved problem, there has recently been progress for modest dimensionalities. Here we report on a successful attempt at addressing problems of dimensionalit

high-dimensional control slate-mdps deep q-learning sequential aspect recommendation systems

发现论文，激发创造

SlateFree: 一种基于模型的分解方法用于带有分段动作的强化学习

提出了一种基于强化学习的新算法 SlateFree，使用 MDP 框架，将大量的物品进行分组，通过 Q-learning 算法进行在线学习，能够有效地解决顺序推荐问题。

Sep, 2022

基于强化学习的创作素材推荐

通过使用变分自编码器学习连续、低维的隐空间，从而在连续的潜在空间中选择筛选项，最终被解码成对应的筛选板，从而提高推荐系统的效果和多样性。

Jan, 2023

基于低秩框架的推荐系统中的表示学习

提出了一种在推荐系统中使用强化学习优化推荐结果的样本高效表示学习算法，并构建了推荐模拟环境来解决这个问题。

Sep, 2023

快速高效的垒位策略优化：超越普拉基特–卢斯模型

大规模机器学习系统的一个关键组成部分是返回选项列表；这篇论文在给定任意奖励函数的情况下，通过在决策函数上应用一种新的松弛技术，提出了一种简单而高效的学习算法来优化这些大规模决策系统，能够扩展到庞大的动作空间规模，相比常用的 Plackett-Luce 策略类，证明了该方法的有效性。

Aug, 2023

深度强化学习的马尔可夫状态抽象学习

该研究提出了一种学习马尔科夫状态抽象表示的新方法，结合逆向模型估计和时态对比学习，可以提高强化学习中的样本效率。

Jun, 2021

通过深度强化学习管理具有大状态和动作空间的工程系统

本文提出了一种综合的深度强化学习框架 - DCMAC，使用深度函数近似和分解表示系统动作来提供高维空间中大型多组件系统的高效生命周期策略，相对于基于时间、条件和周期策略的优化基线，DCMAC 表现更好。

Nov, 2018

基于石板的推荐系统的强化学习：可行的分解和实用方法论

该研究提供了使用深度强化学习技术解决个性化推荐系统中长期用户参与度问题的方法，通过分解价值函数，考虑了物品组合效应，并实验证明了该方法的可行性和扩展性。

May, 2019

深度 MDP：学习连续潜空间模型以进行表征学习

介绍了一种参数化潜变量空间模型 DeepMDP，通过学习奖励和下一个潜变量状态的预测来训练模型，以提高强化学习中连续状态的表示效果，并证明其在 Atari 2600 游戏中可以明显提高模型性能。

Jun, 2019

随机动作集的规划与学习

研究了具有随机动作集的马尔可夫决策过程及其最优策略和值函数的性质，并针对不同情况提出了多项式时间的策略迭代和价值迭代方法。

May, 2018

当并非所有操作都可用时的强化学习

本文介绍了基于马尔可夫决策过程（MDP）中存在确定性可选动作集合的局限性，提出了一种新的基于随机动作集合的马尔可夫决策过程（SAS-MDP）模型，并针对旧 RL 算法在 SAS-MDP 中可能存在的发散问题，提出了包含独特的方差缩减技术的新的策略梯度算法以及收敛条件，并通过真实用例启发的任务实验表明了该方法的实用性。

Jun, 2019