该论文研究了具有 bandit feedback 的在线元学习,目的是通过某种自然的相似性度量改善类似的多个任务的性能。
Jul, 2023
研究在随机线性赌博任务中的元学习过程,通过从任务分布中采样一类赌博任务来选择平均表现良好的学习算法,该文章考虑了实现 OFUL 算法的一类赌博算法,其中正则化是一个到偏置向量的平方欧几里得距离。我们首先研究了 OFUL 算法偏置的优点,并提出两种估计学习过程中偏差的策略。当任务数增加且任务分布的方差很小时,理论和实验都表明,我们的策略在学习隔离任务方面具有显着优势。
May, 2020
提出了一种新颖的算法,采用乐观性和适应性技术,结合在线镜像下降框架和特殊的对数障碍正则化器来解决对抗性多臂赌博机问题和组合半赌博问题,并在提高先前工作的同时,取得了多种新的数据依赖性遗憾界。
Jan, 2018
通过构建神经协同过滤自适应组 Metaban 算法,本文将人工智能中的探究与利用困境(exploitation-exploration dilemma)应用于定制化推荐,并在实验中将 Metaban 与六种模型进行对比,结果表明 Metaban 显著优于其他模型的表现。
Jan, 2022
发展了一种新的方法,使用标准无偏估计量,并依赖于简单的递增的学习速率表和对数单调自协调障碍以及加强的弗里德曼不等式,以获取高概率遗憾边界。
Jun, 2020
本文提出了一种理论框架来设计和理解实用的元学习方法,该方法将任务相似性的复杂形式化与在线凸优化和序列预测算法的广泛文献融合。该方法使任务相似性能够自适应地学习,为统计学习 - to-learn 的转移风险提供更加精确的界限,并在任务环境动态变化或任务共享一定几何结构的情况下,导出高效算法的平均情况后悔界限。我们使用该理论修改了几种流行的元学习算法,并在少样本学习和联邦学习的标准问题上改善了它们在元测试时的性能。
Jun, 2019
该研究提出了一种综合了元学习和在线学习范式的在线元学习模型,运用改进后的 MAML 算法,实现连续终身学习,实验结果表明该算法明显优于传统的在线学习方法。
Feb, 2019
一个 meta-learning 框架有效的解决了 bandit 任务中的 regret minimization 问题,提出了贝叶斯和频率主义算法,评估了不同的环境。
Feb, 2022
研究了一种基于子模最大化的算法,该算法可以优化 K 个老虎机任务中最佳 M 个机器臂的最佳子集,表现出比标准算法更小的代价,同时解决了未知和已知任务边界的问题。
该研究针对随机、组合式多臂老虎机问题,提出了一种将离线算法转化为基于有限老虎机反馈的子线性 α 遗憾策略的框架,并将其应用于离散优化问题中的基数问题和背包约束问题中获得了良好的表现。
Jan, 2023