联合学习推荐和广告

KDDFeb, 2020

Jointly Learning to Recommend and Advertise

Xiangyu Zhao, Xudong Zheng, Xiwang Yang, Xiaobing Liu, Jiliang Tang

TL;DR本文提出了一种新的两级强化学习框架，用于联合优化推荐和广告策略，第一层生成推荐列表以优化用户体验，第二层将广告插入推荐列表以平衡广告客户的即时广告收入和广告对长期用户体验的负面影响。实验结果表明该框架的有效性。

Abstract

online recommendation and advertising are two major income channels for online recommendation platforms (e.g. e-commerce and news feed sit

online recommendation advertising reinforcement learning optimization user experience

发现论文，激发创造

DEAR: 推荐系统中用于在线广告展示的深度强化学习

本文提出了一种基于强化学习的广告策略，通过设计一个新型的深度 Q 网络结构，可以连续更新其广告策略，在推荐列表中插入广告或不插入广告，并选择最优广告和最佳插入位置，使得推荐广告效果显著提升。

Sep, 2019

优化搜索广告策略：将强化学习与广义第二价格拍卖相结合以实现增强型广告排名和出价

本文探讨了在电子商务平台中将战略优化方法引入搜索广告领域，重点关注广告排名和竞价机制。通过结合强化学习和进化策略，我们提出了一个动态模型，能够根据用户交互的变化优化广告成本、用户相关性和平台收益的平衡。我们的研究结果表明，在广告投放准确性和成本效率方面取得了显著的改进，证明了该模型在实际场景中的适用性。

May, 2024

搜索、推荐和在线广告的深度强化学习：综述

本文概述了基于深度强化学习的信息搜索、推荐和在线广告的方法和应用，回顾了代表性算法，讨论了一些有吸引力的研究方向。

Dec, 2018

基于深度强化学习的页面推荐

本文提出了一个基于深度强化学习的新型页面推荐框架 ——DeepPage，旨在同时解决如何根据用户实时反馈更新推荐策略以及如何生成具有适当显示的项目页面两个关键问题，并在真实世界的电子商务数据集上进行实验证明了提出框架的有效性。

May, 2018

基于深度强化学习的列表推荐

本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统，将用户与推荐系统之间的交互建模为马尔可夫决策过程，并通过在线用户 - 代理交互环境模拟器来预训练和评估模型参数，进一步提出了一种将列表式推荐纳入推荐系统的实验方法，并在真实世界的电子商务数据集上验证了该方法的有效性。

Dec, 2017

面向高效多通道串行广告的动态背包优化

本研究将顺序广告策略优化建模为动态背包问题，并提出了一种具有理论保证的二层优化框架，以显著降低原始优化空间的解决方案，同时确保解决方案的质量，进一步地通过缩小行动空间提高了增强学习的探索效率。离线和在线实验表明，相比工艺水平的基线方法，我们的方法在累计收入方面表现优异。

Jun, 2020

电子商务系统中基于强化利润最大化的价值感知推荐

通过融合在线广告和微观经济基本概念到个性化推荐领域，我们提出了基于强化学习的价值感知推荐算法，该算法通过直接优化候选项的经济价值生成推荐列表，映射每种用户操作的货币化经济价值并以此作为排序列表的激励值，在线商业系统与离线基准测试中得到验证，证明了我们框架性能的提高，无论是传统的 top-$k$ 排名任务还是系统的经济利润。

Feb, 2019

RecoGym：在线广告推荐问题的强化学习环境

介绍了 RecoGym，一个基于强化学习的环境，旨在解决基于历史数据的监督学习建模在在线实践应用中缺乏表现优异的问题。通过模拟用户与产品之间的交互信息，有效地提高了推荐系统的实时性和准确性。

Aug, 2018

使用深度强化学习的赞助搜索组合关键词推荐

本文探讨了利用一种改进的指针网络结构思想，通过采用深度强化学习来解决关键词推荐的组合优化问题，提出了一个预分簇方法 Equal Size K-Means 来加速训练和测试，该框架在离线和在线环境中均取得了显著的提高。

Jul, 2019

优化生产投标策略的离线强化学习

通过离线强化学习从真实数据中学习，我们提出了一种通用方法来优化生产环境中的竞价策略，这种方法可以用于优化任何可微分的基础策略，并且只需要由基础策略自身生成的数据。我们使用混合代理架构将任意基础策略与深度神经网络结合起来，在训练后仅部署优化的基础策略参数，而神经网络部分被丢弃。我们证明这样的架构在模拟和生产竞价环境中都能取得统计上显著的性能提升。我们的方法不会产生额外的基础设施、安全或可解释性成本，因为它直接优化现有生产流程的参数，而不是用类似神经网络的黑箱模型替换它们。

Oct, 2023