interactive recommender systems | BriefGPT

关键词interactive recommender systems

搜索结果 - 8

对抗性批量逆强化学习：从不完美的演示中学习奖励，用于交互式推荐
在本研究中，我们提出了一种新颖的批量逆向强化学习模型，通过使用折扣的稳态分布修正结合学习奖励 (LTR) 和推荐代理评估，同时满足组合要求，并通过贝尔曼转化和 KL 正则化来改进效果和效率。
PDF8 months ago
交互推荐中的软属性偏好征求
基于软属性，利用概念激活向量开发了一种新颖的偏好征集方法，结合了物品和属性的偏好征集，以提高推荐系统的推荐质量。
PDF8 months ago
AAAI一个通用的离线强化学习框架用于交互推荐
该论文研究了在在线环境中无需探索的情况下，从已记录的反馈中学习互动推荐系统的问题，并提出了一种通用的离线强化学习框架用于推荐，可以通过最大化累积用户奖励来解决问题。为了更有效地进行离线学习，我们提出了五种方法来最小化记录策略和推荐策略之间的
PDF9 months ago
交互式图卷积滤波
提出了一种名为 “交互图卷积过滤模型” 的新颖方法，通过扩展交互式协同过滤到图模型中，增强用户和物品之间的协同过滤性能，同时采用变分推断技术解决非线性模型的计算难题，以及采用贝叶斯元学习方法有效解决冷启动问题，并对该方法建立理论上的遗憾界限
PDF10 months ago
SIGIR面向交互推荐系统中的长期用户反馈验证
通过重新访问基于回顾数据集的 IRS 实验，我们将 RL 模型与简单的奖励模型进行比较，发现简单贪婪的奖励模型在最大化累积奖励方面一直优于 RL 模型；而将长期奖励赋予更高权重会导致推荐性能下降；用户反馈对基准数据集仅有长期影响。因此，我们
PDF10 months ago
利用概念激活向量在推荐系统中发现软属性的个性化语义
利用概念激活向量（CAVs）来学习用户语义意图，将其与用户喜好和行为联系起来，并能够通过互动评论来提高推荐准确性的交互式推荐系统。
PDF2 years ago
AAAI多样化推荐的混合赌博机框架
本文提出了一种基于在线学习的框架 Linear Modular Dispersion Bandit (LMDB)，通过使用模块化函数来建模每个物品的相关性属性和使用离散度函数描述物品集的多样性属性，解决了交互式推荐系统中忽略了用户个性化偏好
PDF4 years ago
基于树形策略梯度的大规模交互推荐
本研究提出了一种针对交互式推荐系统的树形策略梯度推荐框架，通过在项目上构建平衡的分层聚类树来解决大离散行动空间问题，实验证明，该模型具有更优异的推荐效果和显著的效率改进。
PDF6 years ago