社交推荐系统中的分布式在线学习

Sep, 2013

社交推荐系统中的分布式在线学习

Distributed Online Learning in Social Recommender Systems

Cem Tekin, Simpson Zhang, Mihaela van der Schaar

TL;DR分析分布式在线推荐系统中的分散序列决策制定问题，针对分布式推荐系统中信息不对称的情况，通过协作性上下文问题模型解决，实现对推荐销售的最大收益。

Abstract

In this paper, we consider decentralized sequential decision making in distributed online recommender systems, where items are recommended to users based on their search query as well as their specific background including history of bought items, gender and age, all of which comprise the context information of the user. In contrast to centralized recommende

decentralized recommender systems contextual bandit problem distributed online recommendation inventory of items user information

发现论文，激发创造

基于合作上下文臂银行算法的分布式在线学习

本文提出了一种新的分布式在线学习框架，将学习者建模为合作的情境赌博机，分析了分布式在线学习算法和完全知识基准的效率，研究表明后者在时间上失误是亚线性的，该理论框架可用于许多实际应用中，包括大数据挖掘、监视传感器网络事件检测和分布式在线推荐系统。

Aug, 2013

在线和移动社交网络的推荐系统：一项调查

该研究论文是一篇关于在在线和移动社交网络中设计和实现推荐系统的综述，重点介绍了如何利用社交上下文信息来改善推荐任务，以及标准算法如何在完全分布式环境中进行增强和优化，并讨论了这些系统的优缺点和性能评估。

Jun, 2023

基于深度强化学习的显式用户 - 物品交互模型推荐

本研究提出了一个基于深度增强学习的新型推荐框架，称为 DRR，它将推荐视为一种顺序决策过程，并采用 “Actor-Critic” 增强学习方案来模拟用户与推荐系统之间的交互，同时考虑动态适应和长期回报，经过四个真实数据集的广泛实验，证明了 DRR 方法确实优于现有的竞争对手。

Oct, 2018

基于深度强化学习的列表推荐

本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统，将用户与推荐系统之间的交互建模为马尔可夫决策过程，并通过在线用户 - 代理交互环境模拟器来预训练和评估模型参数，进一步提出了一种将列表式推荐纳入推荐系统的实验方法，并在真实世界的电子商务数据集上验证了该方法的有效性。

Dec, 2017

深度社交协同过滤

本文介绍了 DSCF，一种新型的深度社交协同过滤框架，通过利用社交关系的各个方面来解决推荐系统中存在的多种挑战，包括利用用户 - 项目交互和社交网络信息进行深度学习，使用邻居的信息并考虑特定推荐情况，以及了解邻居对项目的不同意见对用户的影响等，实验证明该框架的有效性。

Jul, 2019

强化学习推荐系统综述

本文对基于强化学习的推荐系统进行了综述，提出了一个 RLRS 框架，包括状态表示，策略优化，奖励制定和环境构建，并针对 RLRS 算法进行了调查，强调出现的主题并展示了各种图表。

Jan, 2021

使用带有依赖臂的多臂老虎机进行在线交互式协同过滤

研究如何考虑物品间的相关性，将物品聚类为不同的组别，并使用基于粒子学习的算法来推断模型的潜在参数和状态，从而开发出一种可以有效地整合现有多臂选择策略的在线交互协作推荐系统。

Aug, 2017

推荐系统简介

本文综述了个性化推荐及推荐系统的经典算法，评估方式，以及最近研究的方向：基于会话的推荐、推荐系统中的偏差问题以及实际应用的影响和价值。

Feb, 2023

协同过滤赌博机

本文提出了一种自适应聚类技术，以探索 - 利用策略为基础，用于内容推荐系统中高动态性的推荐领域，该算法利用数据中的喜好模式，具有与协同过滤方法类似的优点，对中等规模的真实世界数据集进行了实证分析，表现出可扩展性和预测性能提高。

Feb, 2015

推荐系统中的曝光限制学习

本文提出了一种上下文多臂赌博机模型来解决推荐系统中内容提供商对曝光量的依赖性，并开发具有次线性遗憾度和优化目标的算法，该算法的目标是最大程度地提高用户的福利和保留至关重要的内容提供商。

Feb, 2023