对抗式多臂老虎机的在线元学习

ICMLMay, 2022

Online Meta-Learning in Adversarial Multi-Armed Bandits

Ilya Osadchiy, Kfir Y. Levy, Ron Meir

TL;DR研究使用元学习算法解决敌对多臂赌博机问题，在每个 episode 中利用经验分布提高算法性能，并得到了针对该问题的最小遗憾界。

Abstract

We study meta-learning for adversarial multi-armed bandits. We consider the online-within-online setup, in which a player (learner) encounters a sequence of multi-armed bandit episodes. The player's performance i

meta-learning adversarial multi-armed bandits regret online algorithm problem-dependent regret bounds

发现论文，激发创造

数据稀缺场景下合成表格数据生成的人工归纳偏好

通过在有限真实数据环境下使用深度生成模型（Deep Generative Models, DGMs）生成逼真可靠的合成表格数据，该论文提出了一种新颖的方法，通过转移学习和元学习技术在 DGM 中生成人工归纳偏差。其中，采用预训练和模型平均等转移学习策略优于采用元学习方法，例如模型无关元学习和领域随机搜索。通过验证方法，使用变分自动编码器和生成对抗网络两种最先进的 DGM，表明我们的人工归纳偏差可提供更高质量的合成数据，通过 Jensen-Shannon 散度测量，相对收益可达 50％。该方法具有广泛适用性于各种 DGM 和机器学习任务，特别适用于数据稀缺常见的领域，如卫生保健和金融。

Jul, 2024

基于元学习的大规模无线系统优化

使用基于元学习的非凸优化方法，本研究旨在克服传统优化算法在大规模无线系统中复杂度过高的问题，并成功地优化了三种 6G 技术的性能，揭示了大规模情况下操作的未知方面。

Jul, 2024

因果型赌博机：适应性的帕累托最优前沿，相对于线性赌博机的简化以及对未知边际分布的限制

本文研究了多臂赌博问题中适应因果结构的问题，探讨了条件性有利结构和任意环境中学习性能的权衡关系，并通过将问题转化为线性赌博设置，首次获得了因果赌博的实例相关界。

Jul, 2024

分类的成对差异学习

该论文扩展了对比差异学习 (PDL) 在分类任务中的应用，提出了一种元学习技术，通过解决原始训练数据的成对版本上的适当定义的（二元）分类问题，来诱导 PDL 分类器。在大规模的实证研究中，分析了 PDL 分类器的性能，并发现其在预测性能方面优于现有的方法。最后，提供了一个易于使用和公开可用的 PDL 的 Python 包实现。

Jun, 2024

探索基于频率感知的跨域少样本分类

通过提出一种基于频率感知提示的方法，该方法使用双向注意力模块来模拟人类视觉感知，在跨领域少样本分类中能够改善现有方法的性能。

Jun, 2024

通过元学习实现自动化的隐私保护技术

AUTOPRIV 是第一个自动化的隐私保护方法，利用元学习自动化进行去身份化过程，有助于安全发布用于机器学习任务的数据。它通过提供一系列有前景的解决方案来预测预测性能和隐私风险，从而在新领域内实现最佳近似。通过将计算复杂性和能源消耗大大降低，AUTOPRIV 具有很高的效能。

Jun, 2024

MetaFollower: 适应性个性化自动车辆跟随

通过元学习，我们提出了一种可适应个性化车辆跟驰的 MetaFollower 框架，结合长短期记忆网络（LSTM）和智能驾驶模型（IDM），能够准确捕捉和模拟车辆跟驰行为的细微动态，并考虑到个体驾驶者的独特驾驶风格。与常规的自适应巡航控制系统相比，该框架能够快速适应新驾驶员并在预测车辆跟驰行为方面具有更高的准确性和安全性。

Jun, 2024

高效通信与隐私保护的分散化元学习

在这篇论文中，我们提出了一种名为 LoDMeta（本地分布式元学习）的方法，利用本地辅助优化参数和模型参数的随机扰动来降低通信成本并提高数据隐私保护。理论结果和实证结果都表明，LoDMeta 与集中式元学习算法相比具有相似的元学习准确性，但不需要从每个客户端收集数据，并且能够更好地保护每个客户端的数据隐私。

Jun, 2024

使用 Transformer 神经过程的上下文学习

神经过程（NPs）是一类强大的元学习模型，旨在逼近元数据集中每个数据集从中抽样得到的地面真实随机过程的后验预测映射。我们在 NP 中增加了集成其他类似数据集的功能，描述了此范例作为上下文中的上下文学习。标准的 NP 架构（如卷积条件 NP（ConvCNP）或转换器神经过程（TNPs）系列）无法进行上下文中的上下文学习，因为它们只能在单个数据集上进行条件。我们通过开发上下文中的伪标记 TNP（ICICL-TNP）来解决这个问题。 ICICL-TNP 基于 PT-TNPs 系列，利用基于伪标记的转换器架构来规避常规转换器架构的二次计算复杂性。重要的是，ICICL-TNP 能够在数据点集和数据集集上进行条件修正，从而实现上下文中的上下文学习。我们在多个实验中证明了上下文中的上下文学习的重要性和 ICICL-TNP 的有效性。

Jun, 2024

发现最小的强化学习环境

通过元学习神经网络马尔可夫决策过程，我们发现专门的训练环境对于训练强化学习智能体具有潜在的速度提升能力，并且发现上下文为基的赌博机能够实现良好的评估环境转移，从而加速下游应用。

Jun, 2024