朝向领域自适应的神经上下文赌博
研究了领域自适应算法在目标域的性能与源域误差和数据分布之间的差异度量函数的关系,提出了一种基于距离度量的方法用于 NLP 任务,开发了一个 DistanceNet 模型和 DistanceNet-Bandit 模型,证明了这些模型在无监督领域适应中的优越性。
Jan, 2020
在线商业领域,推荐系统对增强用户体验至关重要。本篇研究论文探讨了基于上下文的强化学习模型 —— 上下文强化学习框架,作为实现个性化推荐的强大工具。我们深入研究了该领域中的挑战、先进算法与理论、协同策略,以及开放性问题和未来前景。与现有相关教程不同,(1)我们专注于上下文强化学习的探索视角,以减轻推荐系统中的 “马太效应”,即物品的热门度导致富者更富、贫者更贫;(2)除了传统的线性上下文强化学习,我们还将专注于神经上下文强化学习,近年来成为重要的分支,从经验和理论两方面探究神经网络如何增进上下文强化学习的个性化推荐;(3)我们将介绍最新的话题 —— 协同神经上下文强化学习,以结合用户异质性和用户相关性,为推荐系统定制;(4)我们将提供和讨论神经上下文强化学习在个性化推荐中的新兴挑战和未解问题,特别是对于大型神经模型。
Dec, 2023
本文是对背景上下文算法的一个全面的研究和综述,重点关注依靠监督学习的优化原则的实用方法,并利用大量的监督学习数据集进行了实证评估。研究发现,最近使用不确定性乐观主义的方法在整体上效果最好,其次是通过上下文多样性暗示进行探索的简单贪心基线。
Feb, 2018
本文提出了一种新的上下文强化学习算法 NeuralBandit,它不需要对上下文和奖励的稳定性提出假设。该算法使用多个神经网络来建模上下文的价值,并提出了两种基于多专家方法的变体来在线选择多层感知器的参数。该算法在大型数据集上进行了测试,包括奖励稳定和不稳定的情况,并取得了成功的效果。
Sep, 2014
在联邦学习中,研究通过用户与感兴趣的应用程序交互产生的隐式信号,而非要求访问难以获取的显式标签的情况下,采用联合上下文强化学习框架来开发各种中心化环境下主要上下文强化学习算法的变体,并在公开可用数据集的一系列场景中仔细评估这些算法。我们的实验显示,简单且常用的 softmax 启发式方法可以在多种设置下平衡已知的探索和开发之间的权衡。
Mar, 2023