共享仿射子空间中的元学习在赌博机中的应用

Mar, 2024

共享仿射子空间中的元学习在赌博机中的应用

Meta Learning in Bandits within Shared Affine Subspaces

Steven Bilaj, Sofien Dhouib, Setareh Maghsudi

TL;DR通过在线主成分分析学习低维仿射子空间，从而降低遇到的赌博机的预期遗憾，我们研究了通过充分利用其集中性解决多个情境随机赌博任务的元学习问题。我们提出并理论地分析了两种解决方法：一种是基于在不确定性面前的乐观原则，另一种是通过汤普森抽样。我们的框架是通用的，并包括之前提出的方法作为特殊情况。此外，实证结果表明，我们的方法显著减少了一些赌博任务的遗憾。

Abstract

We study the problem of meta-learning several contextual stochastic bandits tasks by leveraging their concentration around a low-dimensional affine subspace, which we learn via →

meta-learning contextual stochastic bandits online principal component analysis optimism in the face of uncertainty thompson sampling

发现论文，激发创造

随机线性赌器元学习

研究在随机线性赌博任务中的元学习过程，通过从任务分布中采样一类赌博任务来选择平均表现良好的学习算法，该文章考虑了实现 OFUL 算法的一类赌博算法，其中正则化是一个到偏置向量的平方欧几里得距离。我们首先研究了 OFUL 算法偏置的优点，并提出两种估计学习过程中偏差的策略。当任务数增加且任务分布的方差很小时，理论和实验都表明，我们的策略在学习隔离任务方面具有显着优势。

May, 2020

元学习对抗性赌博机

本文研究了跨多任务的在线学习问题，设计了一个统一的元算法，旨在优化平均性能。该算法在多臂老虎机和乐观线性优化两个重要情境下提供了特定保证，通过任务平均后悔的降低来提高性能。

May, 2022

元学习对抗强盗算法

该论文研究了具有 bandit feedback 的在线元学习，目的是通过某种自然的相似性度量改善类似的多个任务的性能。

Jul, 2023

元学习下的神经协作过滤赌博机

通过构建神经协同过滤自适应组 Metaban 算法，本文将人工智能中的探究与利用困境（exploitation-exploration dilemma）应用于定制化推荐，并在实验中将 Metaban 与六种模型进行对比，结果表明 Metaban 显著优于其他模型的表现。

Jan, 2022

基于元数据的贝叶斯分层模型多任务赌博机

在这篇论文中，我们引入了基于元数据的多任务赌博机问题，提出了一种基于贝叶斯分层模型的任务关系捕捉方法，并设计了一个 Thompson 抽样算法来高效地学习任务关系、共享信息，并最小化累计遗憾。通过对高斯赌博机和伯努利赌博机的分析，我们证明了信息共享的算法的好处。该方法还得到了广泛的实验支持。

Aug, 2021

低秩赌博机的紧致二至无穷奇异子空间恢复

我们研究具有低秩结构的情境强化学习，提出了高效的算法用于策略评估、最佳策略识别和遗憾最小化，这些算法近乎极小化的性能表现可达到理论最优水平。

Feb, 2024

情境随机赌博问题中的模型选择

研究如何在随机环境中进行赌徒模型选择，提出一种基于元算法的方法，可以与一般类别的基本算法和不同类型的对抗性元算法一起使用，同时发展一种新颖的通用平滑变换的算法来优化模型选择问题。

Mar, 2020

简单后悔最小化的元学习

一个 meta-learning 框架有效的解决了 bandit 任务中的 regret minimization 问题，提出了贝叶斯和频率主义算法，评估了不同的环境。

Feb, 2022

分层贝叶斯赌博机

该论文提出了一种基于分层贝叶斯赌博机的自然分层 Thompson 采样算法（HierTS），可有效解决元学习、多任务学习、联邦学习等类似问题，并通过实验展示了分层结构有助于任务间的知识共享。

Nov, 2021

可证明的部分可观测上下文赌博机中的高效学习

我们研究了部分可观察环境下的上下文马尔可夫决策过程中的迁移学习问题，通过优化问题将其转化为识别或部分识别动作和奖励之间因果效应的问题，并通过线性规划的顺序求解来获得相容的因果模型，并在考虑估计误差的情况下获得因果边界。我们的采样算法提供了适宜的采样分布的收敛结果，然后展示了如何将因果边界应用于改进传统的贝叶斯增强算法，并对动作集大小和函数空间的影响进行了分析。与以往文献相比，我们的方法在函数逼近任务中可以处理一般的上下文分布，改善了对函数空间大小的依赖性。我们正式证明了我们的因果增强算法优于传统的贝叶斯增强算法，并实现了数量级更快的收敛速度。最后，我们进行了模拟实验，证明了我们的策略相对于当前最先进的方法的高效性，可以在数据稀缺且成本高昂的实际应用中提高上下文马尔可夫决策过程的性能。

Aug, 2023