使用组合行动空间的深度强化学习预测流行的 Reddit 帖子

Jun, 2016

使用组合行动空间的深度强化学习预测流行的 Reddit 帖子

Deep Reinforcement Learning with a Combinatorial Action Space for Predicting and Tracking Popular Discussion Threads

Ji He, Mari Ostendorf, Xiaodong He, Jianshu Chen, Jianfeng Gao...

TL;DR本研究引入一种在线人气预测和追踪任务，作为强化学习在组合自然语言动作空间的基准任务，使用深度强化学习架构，通过双向LSTM建立子动作之间的依赖关系来提高建模价值函数的效果，并在不同实验配置和领域中表现出最佳性能并具有良好的泛化能力。

Abstract

We introduce an online popularity prediction and tracking task as a benchmark task for reinforcement learning with a combinatorial, natural langu

发现论文，激发创造

使用关注力的深度强化学习用于拥有高维状态和动作的Slate Markov决策过程

介绍了一种新的深度 Q 学习算法，用于处理高维度下的推荐系统问题，该算法将基于特征表示的深度 Q 学习与 Slate Markov 决策过程相结合，优化了策略的组合和序列属性，并采用深度确定性策略梯度和风险探索，提高了智能体的性能和发现潜在策略的能力。

Dec, 2015

使用双阶段训练的策略网络用于对话系统

本文提出使用训练有优势actor-critic方法的深度策略网络统计优化对话系统，演示了在深度强化学习下优于高斯过程方法，可以有效地训练部分可观察马尔可夫决策过程的对话系统，有效提高学习速度，所有实验在DSTC2餐厅领域数据集上进行。

Jun, 2016

利用外部知识和两阶段Q函数进行强化学习，预测Reddit热门讨论

本文探讨使用强化学习来预测在线论坛评论的受欢迎程度的问题，尤其是针对自然语言状态和动作空间所带来的两个挑战。作者提出了一种增强状态表示方法来融合外部知识源的全局上下文，同时引入了一个两阶段的Q-learning框架来解决组合动作空间搜索和子动作冗余问题，并在五个Reddit社区进行实验，证明了这两种方法在此任务上比之前的方法效果更好。

Apr, 2017

基于注意力机制深度强化学习的众人机交互：众人感知的机器人导航

本文提出一种注意力机制的深度强化学习模型，能够更好地模拟拥挤场景下的人机交互问题，包括人与人的交互作用，实验结果表明该模型优于现有方法。

Sep, 2018

基于潜变量模型的端对端对话代理强化学习中的行动空间重新思考

该研究提出了一种新颖的潜在动作框架，将端到端会话代理的动作空间视为潜在变量，并开发无监督的方法从数据中诱导其自己的动作空间。实验结果表明，所提出的潜在动作在DealOrNoDeal和MultiWoz对话上实现了比以前的基于单词级策略梯度方法更好的实证绩效改进。

Feb, 2019

基于石板的推荐系统的强化学习: 可行的分解和实用方法论

该研究提供了使用深度强化学习技术解决个性化推荐系统中长期用户参与度问题的方法，通过分解价值函数，考虑了物品组合效应，并实验证明了该方法的可行性和扩展性。

May, 2019

使用强化学习进行开放式对话的动态规划

本研究利用强化学习技术结合最先进的自然语言理解模型创造了一个实时的对话系统，并在使用谷歌智能助手的实验中，使用众包数据进行训练，显著超越了强化模型，证明其对于自然人对话有较高的开放性和可行性。

Jul, 2022

基于强化学习的创作素材推荐

通过使用变分自编码器学习连续、低维的隐空间，从而在连续的潜在空间中选择筛选项，最终被解码成对应的筛选板，从而提高推荐系统的效果和多样性。

Jan, 2023

离线混合专家对话管理强化学习

本文旨在解决用强化学习为动力的聊天机器人中的在线探索困难问题。作者使用了针对对话规划的多种RL算法，利用 MoE-LM 对话模型的结构，通过缩小行动空间并提高RL-DM的效能来展示这些算法在开放领域对话中的有效性。

Feb, 2023

使用层次行动探索的深度强化学习实现对话生成

本文提出一种新的双粒度 Q 函数，通过探索最有前途的响应类型来介入采样，从而解决自然语言行动空间巨大所带来的效率问题，在多个设计用于识别人类情感细节的奖励函数中，以离线强化学习的方式学习，我们的算法在实证研究中表现优于基线方法，进一步验证表明我们的方法可以生成更高期望奖励和可控性响应。

Mar, 2023