Meta-SAGE: 尺度元学习调度适应与引导勘探在组合优化中缓解尺度漂移

ICMLJun, 2023

Meta-SAGE: 尺度元学习调度适应与引导勘探在组合优化中缓解尺度漂移

Meta-SAGE: Scale Meta-Learning Scheduled Adaptation with Guided Exploration for Mitigating Scale Shift on Combinatorial Optimization

PDF

Jiwoo Son, Minsu Kim, Hyeonah Kim, Jinkyoo Park

TL;DR本文提出了 Meta-SAGE，一种用于改善组合优化（CO）任务中深度强化学习模型的可伸缩性的新方法。我们的方法通过建议两个组件：一个比例元学习器（SML）和指导探索的计划适应性（SAGE），将预训练模型适应到测试时间中的更大规模的问题，结果表明 Meta-SAGE 优于以前的适应方法，并且显着提高了具有代表性的 CO 任务的可伸缩性。

Abstract

This paper proposes meta-sage, a novel approach for improving the scalability of deep reinforcement learning models for →

meta-sage deep reinforcement learning combinatorial optimization scalability locality bias

发现论文，激发创造

实现可扩展的元学习

该研究通过引入 SAMA 来实现可扩展的元学习，它通过避免显式计算二阶梯度信息和利用一阶梯度的有效分布式训练技术，灵活地支持基本元学习程序中广泛的自适应优化器，并在多个大规模元学习基准测试中展示出吞吐量提高和内存消耗减少的优势，同时还通过数据优化在文本分类和图像分类任务上实现了最先进的结果。

Oct, 2023

SAGE: 深度强化学习中为近视模型生成符号化目标

本文提出新的算法 SAGE，结合符号性规划与神经网络学习等方法，以克服传统模型的局限，更高效地解决基于模型的强化学习在处理部分了解环境时遇到的问题。该算法在出租车环境和 Minecraft 等变化场景中的表现优于其他方法。

Mar, 2022

iSAGE: 数据流上在线解释的 SAGE 增量版本

本文介绍了用于动态学习环境下的直接增量化 SAGE 方法 iSAGE，同时提供了一种基于条件数据分布的特征移除有效近似方法，进一步进行了正式的分析和实验验证。

Mar, 2023

可扩展且泛化的学习优化器

通过引入层次循环神经网络优化算法和基于元学习的小任务集，实现了一个新的学习梯度下降优化器，解决了在更大的问题上扩展能力不足和泛化能力受限问题，并在 ImageNet 数据集上通过数千步为 Inception V3 和 ResNet V2 架构进行了优化。

Mar, 2017

无关模型的元学习用于深度网络的快速适应

本文提出了一种模型无关的元学习算法，通过少量的训练样本，使用梯度下降算法来训练模型的参数，实现了对新学习任务的快速调整和学习，导致在少量图像分类、回归和神经网络政策优化方面表现出最先进的性能。

Mar, 2017

元学习中的 Meta-SGD：快速学习少样本学习

本文介绍 Meta-SGD，一种高容量，容易训练的元学习器，可以在监督学习和强化学习中初始化和适应任何可微分的学习器，在单次元学习过程中学习学习器初始化、更新方向和学习率，相较于 LSTM 和 MAML 在少样本学习上表现更加具有竞争性。

Jul, 2017

带缩减的模块化元学习

提出了一种能够自动发现并学习任务特定和通用可重用模块的元学习方法，以实现针对低数据任务的长时间自适应模型，适用于少样本 TTS 等通常存在少量数据和长时间自适应问题的领域，并在实验证明其表现优于现有元学习方法，包括 MAML，iMAML 和 Reptile。

Sep, 2019

高效可拓展的高斯过程元学习

在这篇论文中，我们开发了一种可扩展的基于高斯过程的模块化元学习模型 ScaML-GP，其中的核心贡献是一个经过精心设计的多任务核函数，它实现了层次化训练和任务的可扩展性。通过在元数据上对 ScaML-GP 进行条件化，我们揭示了其模块化特性，得到一个结合了元任务高斯过程后验的测试任务先验。在合成和真实世界的元学习实验中，我们证明了 ScaML-GP 可以在少量和大量元任务中高效学习。

Dec, 2023

自适应基于梯度的元学习方法

本文提出了一种理论框架来设计和理解实用的元学习方法，该方法将任务相似性的复杂形式化与在线凸优化和序列预测算法的广泛文献融合。该方法使任务相似性能够自适应地学习，为统计学习 - to-learn 的转移风险提供更加精确的界限，并在任务环境动态变化或任务共享一定几何结构的情况下，导出高效算法的平均情况后悔界限。我们使用该理论修改了几种流行的元学习算法，并在少样本学习和联邦学习的标准问题上改善了它们在元测试时的性能。

Jun, 2019

元学习快速上下文适应

提出了 CAVIA 以进行元学习，这是 MAML 的一种简单扩展，它不容易出现元过拟合，易于并行化，并且更易于解释。CAVIA 将模型参数分成两个部分：服务于模型的上下文参数在个别任务上进行调整，并且共享参数进行元培训并跨任务共享。实验证明，CAVIA 在回归，分类和强化学习方面优于 MAML。我们的实验还突出显示了当前基准测试的弱点，在某些情况下需要适应的量很小。

Oct, 2018