元学习对抗性赌博机

May, 2022

Meta-Learning Adversarial Bandits

Maria-Florina Balcan, Keegan Harris, Mikhail Khodak, Zhiwei Steven Wu

TL;DR本文研究了跨多任务的在线学习问题，设计了一个统一的元算法，旨在优化平均性能。该算法在多臂老虎机和乐观线性优化两个重要情境下提供了特定保证，通过任务平均后悔的降低来提高性能。

Abstract

We study online learning with bandit feedback across multiple tasks, with the goal of improving average performance across tasks if they are similar according to some natural task-similarity measure. As the first

online learning bandit feedback multi-task learning meta-algorithm regret analysis

发现论文，激发创造

元学习对抗强盗算法

该论文研究了具有 bandit feedback 的在线元学习，目的是通过某种自然的相似性度量改善类似的多个任务的性能。

Jul, 2023

随机线性赌器元学习

研究在随机线性赌博任务中的元学习过程，通过从任务分布中采样一类赌博任务来选择平均表现良好的学习算法，该文章考虑了实现 OFUL 算法的一类赌博算法，其中正则化是一个到偏置向量的平方欧几里得距离。我们首先研究了 OFUL 算法偏置的优点，并提出两种估计学习过程中偏差的策略。当任务数增加且任务分布的方差很小时，理论和实验都表明，我们的策略在学习隔离任务方面具有显着优势。

May, 2020

更多适应性算法用于对抗式赌博机

提出了一种新颖的算法，采用乐观性和适应性技术，结合在线镜像下降框架和特殊的对数障碍正则化器来解决对抗性多臂赌博机问题和组合半赌博问题，并在提高先前工作的同时，取得了多种新的数据依赖性遗憾界。

Jan, 2018

元学习下的神经协作过滤赌博机

通过构建神经协同过滤自适应组 Metaban 算法，本文将人工智能中的探究与利用困境（exploitation-exploration dilemma）应用于定制化推荐，并在实验中将 Metaban 与六种模型进行对比，结果表明 Metaban 显著优于其他模型的表现。

Jan, 2022

除去偏见：针对对抗性赌博机和 MDPs 的高概率数据依赖性遗憾边界

发展了一种新的方法，使用标准无偏估计量，并依赖于简单的递增的学习速率表和对数单调自协调障碍以及加强的弗里德曼不等式，以获取高概率遗憾边界。

Jun, 2020

自适应基于梯度的元学习方法

本文提出了一种理论框架来设计和理解实用的元学习方法，该方法将任务相似性的复杂形式化与在线凸优化和序列预测算法的广泛文献融合。该方法使任务相似性能够自适应地学习，为统计学习 - to-learn 的转移风险提供更加精确的界限，并在任务环境动态变化或任务共享一定几何结构的情况下，导出高效算法的平均情况后悔界限。我们使用该理论修改了几种流行的元学习算法，并在少样本学习和联邦学习的标准问题上改善了它们在元测试时的性能。

Jun, 2019

在线元学习

该研究提出了一种综合了元学习和在线学习范式的在线元学习模型，运用改进后的 MAML 算法，实现连续终身学习，实验结果表明该算法明显优于传统的在线学习方法。

Feb, 2019

简单后悔最小化的元学习

一个 meta-learning 框架有效的解决了 bandit 任务中的 regret minimization 问题，提出了贝叶斯和频率主义算法，评估了不同的环境。

Feb, 2022

使用少量最优臂进行非平稳赌博与元学习

研究了一种基于子模最大化的算法，该算法可以优化 K 个老虎机任务中最佳 M 个机器臂的最佳子集，表现出比标准算法更小的代价，同时解决了未知和已知任务边界的问题。

Feb, 2022

适应离线算法来解决带有固定反馈的组合多臂赌博问题的框架

该研究针对随机、组合式多臂老虎机问题，提出了一种将离线算法转化为基于有限老虎机反馈的子线性 α 遗憾策略的框架，并将其应用于离散优化问题中的基数问题和背包约束问题中获得了良好的表现。

Jan, 2023