元学习对抗强盗算法

Jul, 2023

Meta-Learning Adversarial Bandit Algorithms

Mikhail Khodak, Ilya Osadchiy, Keegan Harris, Maria-Florina Balcan, Kfir Y. Levy...

TL;DR该论文研究了具有 bandit feedback 的在线元学习，目的是通过某种自然的相似性度量改善类似的多个任务的性能。

Abstract

We study online meta-learning with bandit feedback, with the goal of improving performance across multiple tasks if they are similar according to some natural similarity measure. As the first to target the advers

online meta-learning bandit feedback multi-armed bandits bandit linear optimization tsallis-entropy

发现论文，激发创造

元学习对抗性赌博机

本文研究了跨多任务的在线学习问题，设计了一个统一的元算法，旨在优化平均性能。该算法在多臂老虎机和乐观线性优化两个重要情境下提供了特定保证，通过任务平均后悔的降低来提高性能。

May, 2022

随机线性赌器元学习

研究在随机线性赌博任务中的元学习过程，通过从任务分布中采样一类赌博任务来选择平均表现良好的学习算法，该文章考虑了实现 OFUL 算法的一类赌博算法，其中正则化是一个到偏置向量的平方欧几里得距离。我们首先研究了 OFUL 算法偏置的优点，并提出两种估计学习过程中偏差的策略。当任务数增加且任务分布的方差很小时，理论和实验都表明，我们的策略在学习隔离任务方面具有显着优势。

May, 2020

更多适应性算法用于对抗式赌博机

提出了一种新颖的算法，采用乐观性和适应性技术，结合在线镜像下降框架和特殊的对数障碍正则化器来解决对抗性多臂赌博机问题和组合半赌博问题，并在提高先前工作的同时，取得了多种新的数据依赖性遗憾界。

Jan, 2018

元学习下的神经协作过滤赌博机

通过构建神经协同过滤自适应组 Metaban 算法，本文将人工智能中的探究与利用困境（exploitation-exploration dilemma）应用于定制化推荐，并在实验中将 Metaban 与六种模型进行对比，结果表明 Metaban 显著优于其他模型的表现。

Jan, 2022

在线元学习

该研究提出了一种综合了元学习和在线学习范式的在线元学习模型，运用改进后的 MAML 算法，实现连续终身学习，实验结果表明该算法明显优于传统的在线学习方法。

Feb, 2019

自适应基于梯度的元学习方法

本文提出了一种理论框架来设计和理解实用的元学习方法，该方法将任务相似性的复杂形式化与在线凸优化和序列预测算法的广泛文献融合。该方法使任务相似性能够自适应地学习，为统计学习 - to-learn 的转移风险提供更加精确的界限，并在任务环境动态变化或任务共享一定几何结构的情况下，导出高效算法的平均情况后悔界限。我们使用该理论修改了几种流行的元学习算法，并在少样本学习和联邦学习的标准问题上改善了它们在元测试时的性能。

Jun, 2019

驯服一群强盗算法

通过结合多个赌博机算法，创建一个主算法，它可以像单独运行的最优基础算法一样表现优秀。本文通过 Online Mirror Descent 和学习率算法，实现了更好地权衡探索和利用基础算法，达到了更好的拒绝界。这些结果可以应用于多种情况，如多臂赌博机、上下文赌博机和凸赌博机，并且提出了两种主要应用：第一种是在环境相对容易时，同时享有最坏情况的稳健性和最好的表现，第二种是在不同的先验参数或不同的损失结构下同时工作。

Dec, 2016

共享仿射子空间中的元学习在赌博机中的应用

通过在线主成分分析学习低维仿射子空间，从而降低遇到的赌博机的预期遗憾，我们研究了通过充分利用其集中性解决多个情境随机赌博任务的元学习问题。我们提出并理论地分析了两种解决方法：一种是基于在不确定性面前的乐观原则，另一种是通过汤普森抽样。我们的框架是通用的，并包括之前提出的方法作为特殊情况。此外，实证结果表明，我们的方法显著减少了一些赌博任务的遗憾。

Mar, 2024

具有层次信息结构的去中心化协作强化学习

本文提出了一种简单有效的分层信息结构用于多智能体强化学习中的多臂赌博机和马尔可夫决策过程问题，以求克服智能体间的信息不对称带来的挑战，并给出了相应的近似最优的遗憾界。

Nov, 2021

简单后悔最小化的元学习

一个 meta-learning 框架有效的解决了 bandit 任务中的 regret minimization 问题，提出了贝叶斯和频率主义算法，评估了不同的环境。

Feb, 2022