在线有限内存神经线性赌博机及其似然匹配算法

ICMLFeb, 2021

在线有限内存神经线性赌博机及其似然匹配算法

Online Limited Memory Neural-Linear Bandits with Likelihood Matching

Ofir Nabati, Tom Zahavy, Shie Mannor

TL;DR本文研究神经线性赌博机，结合深度神经网络的表示能力和置信度估计机制，应用于线性环境赌博机中，通过匹配似然算法与去遗忘性相结合，取得了类似于无限存储方法的性能，而且对于遗忘性表现出了很强的韧性。

Abstract

We study neural-linear bandits for solving problems where {\em both} exploration and representation learning play an important role. Neural-linear bandits harnesses the representation power of →

neural-linear bandits representation learning deep neural networks exploration mechanisms catastrophic forgetting

发现论文，激发创造

深度神经线性赌博机：通过似然匹配克服灾难性遗忘

研究采用神经线性策略模型解决高维度副信息序列决策问题，并设计了可用于线性上下文策略的高效探测机制，提出具有限内存神经线性策略防止该现象的新方法。通过在回归、分类和情感分析等各种真实世界数据集上评估我们的方法，我们得到了鲁棒性和优越性能。

Jan, 2019

在线匹配：一种用于大规模推荐的实时试错系统

通过在线学习的方法，本研究提出了一种用于大规模推荐系统的可扩展闭环赌博系统，以提高新内容发现和物品探索的能力。

Jul, 2023

非平稳广义线性赌博机算法

本文提出了两个基于上限置信度算法的广义线性模型及其应用的方法，以解决在非静态环境下的上下文在线学习和塞德利反馈问题，这些结果表明这些算法在一般的情境序列下，并且存在突然变化时具有高概率的上限置信度边界，证明结果的形式为时间 T 内的 d^2/3 G^1/3 T^2/3 阶动态后悔。

Mar, 2020

使用 LLM 生成的先验知识启动 Bandits

将大型语言模型与上下文多臂赌博机框架相结合的益处展示了大量的证据。提出了一种初始化算法，通过提示语言模型生成预训练数据集，以减少上线学习的遗憾并降低培训该模型的数据收集成本。通过两组实验进行了实证验证，其中一组利用大型语言模型作为预测模拟器，另一组利用共同调查实验的数据进行真实世界实验。

Jun, 2024

带遗忘的广义线性赌博机的自共轭分析

本文提出了一种基于置信度的算法来处理自适应遗忘的自共轭概率线性泊松广义线性臂问题（GLB），并分析了其在突然变化环境中的性能，结果表明该方法有望解决 GLB 中的非平稳性问题。

Nov, 2020

聚类多智能体线性赌博

研究了多智能体线性随机赌博问题的特定情况，称为聚类的多智能体线性赌博。提出了一种新颖的算法，在多个智能体之间有效合作以加快整体优化问题。通过在合成数据和真实数据上与最先进的算法进行经验评估，理论分析了后悔最小化问题和聚类质量，证明了我们方法的有效性：我们的算法显著改善了后悔最小化，并成功恢复了真实的聚类划分。

Sep, 2023

高维线性赌博机和推荐系统

该研究使用线性参数化多臂赌博机模型来提高在线服务推荐新产品、视频、歌曲和广告的效果，得到了能够满足用户喜好探索和系统数据调查的解决方案，并在 Netflix 和 MovieLens 数据集上进行了测试。

Jan, 2013

线性效用函数的多项式 Logit 老虎机

该论文提出了一种算法 LUMB 来解决使用线性效用 MNL 选择模型的多项式对数拉致问题，证明此算法比以往算法更优，无需考虑候选集大小。

May, 2018

在线一位反馈随机线性优化

本文研究在线随机线性优化的特殊赌徒环境，其中每轮只有一位信息被揭示给学习者。我们假定二元反馈是从对数模型产生的随机变量，并旨在最小化未知线性函数定义的遗憾。为了解决此挑战，我们通过利用观测模型的特定结构开发了一种高效的在线学习算法。

Sep, 2015

元学习下的神经协作过滤赌博机

通过构建神经协同过滤自适应组 Metaban 算法，本文将人工智能中的探究与利用困境（exploitation-exploration dilemma）应用于定制化推荐，并在实验中将 Metaban 与六种模型进行对比，结果表明 Metaban 显著优于其他模型的表现。

Jan, 2022