朝向领域自适应的神经上下文赌博

Jun, 2024

朝向领域自适应的神经上下文赌博

Towards Domain Adaptive Neural Contextual Bandits

Ziyan Wang, Hao Wang

TL;DR通过从源域收集反馈，我们介绍了第一个用于情境强盗的通用领域适应方法。我们的方法在跨领域适应时维持亚线性遗憾界限，并在真实世界数据集上表现优于现有的情境强盗算法。

Abstract

contextual bandit algorithms are essential for solving real-world decision making problems. In practice, collecting a contextual bandit's feedback from different domains may involve different costs. For example, measuring drug reaction from mice (as a source domain) and humans (as a ta

contextual bandit algorithms domain adaptation distribution shift regret bound real-world datasets

发现论文，激发创造

基于 DistanceNet-Bandits 的多源领域自适应文本分类

研究了领域自适应算法在目标域的性能与源域误差和数据分布之间的差异度量函数的关系，提出了一种基于距离度量的方法用于 NLP 任务，开发了一个 DistanceNet 模型和 DistanceNet-Bandit 模型，证明了这些模型在无监督领域适应中的优越性。

Jan, 2020

非静态环境下学习上下文臂

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018

个性化推荐的神经上下文强化学习

在线商业领域，推荐系统对增强用户体验至关重要。本篇研究论文探讨了基于上下文的强化学习模型 —— 上下文强化学习框架，作为实现个性化推荐的强大工具。我们深入研究了该领域中的挑战、先进算法与理论、协同策略，以及开放性问题和未来前景。与现有相关教程不同，（1）我们专注于上下文强化学习的探索视角，以减轻推荐系统中的 “马太效应”，即物品的热门度导致富者更富、贫者更贫；（2）除了传统的线性上下文强化学习，我们还将专注于神经上下文强化学习，近年来成为重要的分支，从经验和理论两方面探究神经网络如何增进上下文强化学习的个性化推荐；（3）我们将介绍最新的话题 —— 协同神经上下文强化学习，以结合用户异质性和用户相关性，为推荐系统定制；（4）我们将提供和讨论神经上下文强化学习在个性化推荐中的新兴挑战和未解问题，特别是对于大型神经模型。

Dec, 2023

多任务学习用于情境赌博机

本文提出了一个基于上限置信区间的多任务学习算法框架，用于处理具有高任务相似性的上下文型臂带问题，并揭示了此算法在数据中高任务相似性的优势。

May, 2017

上下文赌博大比拼

本文是对背景上下文算法的一个全面的研究和综述，重点关注依靠监督学习的优化原则的实用方法，并利用大量的监督学习数据集进行了实证评估。研究发现，最近使用不确定性乐观主义的方法在整体上效果最好，其次是通过上下文多样性暗示进行探索的简单贪心基线。

Feb, 2018

用于上下文强化学习问题的神经网络委员会

本文提出了一种新的上下文强化学习算法 NeuralBandit，它不需要对上下文和奖励的稳定性提出假设。该算法使用多个神经网络来建模上下文的价值，并提出了两种基于多专家方法的变体来在线选择多层感知器的参数。该算法在大型数据集上进行了测试，包括奖励稳定和不稳定的情况，并取得了成功的效果。

Sep, 2014

风险感知的神经上下文点臂连续控制

我们提出了一个风险感知的决策框架，用于处理上下文褒贬问题，并满足实际环境中的约束条件，通过采用一个多批评者的角色体系来平衡约束满足度和性能。

Dec, 2023

资源丰富的情境臂控制器

我们设计了第一个算法来解决具有资源限制的情境赌博问题，包括具有任意策略集的情境赌博和背包式赌博，并证明了具有接近最优统计属性的遗憾保证。

Feb, 2014

联邦多臂赌博算法的实证评估

在联邦学习中，研究通过用户与感兴趣的应用程序交互产生的隐式信号，而非要求访问难以获取的显式标签的情况下，采用联合上下文强化学习框架来开发各种中心化环境下主要上下文强化学习算法的变体，并在公开可用数据集的一系列场景中仔细评估这些算法。我们的实验显示，简单且常用的 softmax 启发式方法可以在多种设置下平衡已知的探索和开发之间的权衡。

Mar, 2023

神经网络对抗训练的多源域适应

本论文提出了一种新的多源域自适应的一般化界限，并使用对抗神经网络学习特征表示，取得了在情感分析、数字分类和车辆计数等数据集上显著的适应性表现。

May, 2017