在线优化视角下的序列推荐中最大化累积用户参与度

Jun, 2020

在线优化视角下的序列推荐中最大化累积用户参与度

Maximizing Cumulative User Engagement in Sequential Recommendation: An Online Optimization Perspective

Yifei Zhao, Yu-Hang Zhou, Mingdong Ou, Huan Xu, Nan Li

TL;DR通过将用户的行为建模为个性化的马尔可夫决策过程 (MDP)、并将稳定的用户视为吸收状态，本文提出了一个灵活、实用的框架，在业务优化的角度，权衡用户浏览时间及用户的即时点击量，有效提高了用户的累积点击量。

Abstract

To maximize cumulative user engagement (e.g. cumulative clicks) in sequential recommendation, it is often needed to tradeoff two potentially conflicting objectives, that is, pursuing higher immediate user engagement

user engagement click-through-rate browsing length online optimization markov decision process

发现论文，激发创造

强化学习优化推荐系统中的长期用户参与度

本论文介绍了一个基于强化学习的 FeedRec 框架来优化长期用户参与度，该框架包括 Hierarchical LSTM 的 Q-Network 和用于模拟环境、辅助 Q-Network 并避免策略学习收敛不稳定的 S-Network，实验结果表明 FeedRec 能够有效地优化长期用户参与度，并且优于现有的技术水平。

Feb, 2019

通过个性化兴趣可持续性实现的连续推荐

本文提出了一种推荐系统，结合个性化的兴趣变化和项目的普遍兴趣，通过预测用户在最近时间内消费的项目，捕捉个性化的兴趣可持续性，扩充用户稀疏消费历史数据，并在 11 个真实数据集上优于 10 个基础模型。

Sep, 2022

长序列用户行为对于点击率预测的建模实践

本研究通过机器学习算法与在线服务系统的共同设计，提出了处理长序列用户行为数据的解决方案，能够有效地处理超过千级的长序列用户行为数据，提升了模型性能和系统效率。

May, 2019

动态顺序图学习用于点击率预测

这篇论文提出了一种名为动态序列图学习（DSGL）的新方法，通过利用用户或物品相关的本地子图的协同信息来增强用户或物品的表示，以预测点击率。DSGL 使用底部向上的方法在动态顺序图中进行图卷积操作，设计了一个考虑时间信息和时间依赖性的时态序列编码层，并提出了一个目标 - 偏好双重注意层，以搜索与目标相关的行为部分并减轻来自不可靠邻居的噪声。实验结果表明，DSGL 方法可以提高 CTR 预测的准确性。

Sep, 2021

基于搜索的生命周期顺序行为数据进行用户兴趣建模与点击率预测

本文提出了一种名为 “基于搜索的兴趣模型” 的新的建模范式，利用两个级联搜索单元在可扩展性和准确性方面，更好地对终生序列行为数据进行建模，并通过在大规模工业系统中的实现取得了良好的效果。

Jun, 2020

学会休息：可持续优化长期用户参与度

本文旨在提高用户参与度的同时避免滥用或成瘾行为，介绍了使用 Lotka-Volterra 动力学模型的框架，学习个性化休息策略并通过半合成数据的理论保证和实证评估了其性能。

Nov, 2022

组合推荐系统的顺序评估和生成框架

该研究提出了一种基于生成序列概念、以期望总效用为目标函数的组合推荐模型，包含基于搜索和增强学习的序列生成策略，以及全面考虑用户、商品信息和商品间关联的评估模型，离线实验表现出优越性能。

Feb, 2019

市场疲劳下顺序选择赌博机问题的动态学习

该研究通过提出一种新颖的串行选择模型来展示在线学习中的序贯选择问题，以平衡用户的探索和利用，并挖掘用户的个性化需求。研究发现，考虑到顾客对于不必要的市场营销渠道的反感，平台需在学习用户更改的流失率，从而优化宣传消息的长度和顺序，并提供个性化推荐。

Mar, 2019

面向高效多通道串行广告的动态背包优化

本研究将顺序广告策略优化建模为动态背包问题，并提出了一种具有理论保证的二层优化框架，以显著降低原始优化空间的解决方案，同时确保解决方案的质量，进一步地通过缩小行动空间提高了增强学习的探索效率。离线和在线实验表明，相比工艺水平的基线方法，我们的方法在累计收入方面表现优异。

Jun, 2020

用户偏好动态下的推荐系统伤害缓解

研究考虑了推荐系统、用户兴趣演化以及有害内容之间的相互作用，建模了推荐对用户行为的影响，特别是对有害内容消费的倾向性。旨在找到在最大化点击率（CTR）和减轻伤害之间建立权衡的推荐策略，并提出了在稳态下找到最优推荐策略的算法。在以真实数据初始化的半合成电影推荐设置上进行实验，观察到我们的策略在同时最大化 CTR 和减轻伤害方面优于基准线。

Jun, 2024