学习具有先验信息的基本权衡
我们提出了一种通用理论来优化顺序学习问题的频率后悔,从统一的贝叶斯原理中可以得出高效的 Bandit 和强化学习算法。我们提出了一种新的优化方法,在每一轮生成 “算法信念”,并使用贝叶斯后验进行决策。这种优化目标被称为 “算法信息比”,代表了一种有效地表征任何算法的频率后悔的内在复杂度度量。在我们的知识范围内,这是第一种系统的方法,使贝叶斯类型的算法在先验自由和敌对环境中以通用和最优的方式适用。此外,这些算法简单且实现通常高效。作为一个重要的应用,我们提出了一种新颖的多臂赌博机算法,在随机、敌对和非平稳环境中实现了 “兼顾所有优点” 的实证性性能。我们还说明了如何在线性赌博机、赌博机凸优化和强化学习中应用这些原理。
Oct, 2023
本文提出了一组用于理解在线和批量学习设置下的分层先验方法的分析工具,包括对数损失下的后悔界和 Bayesian 风险界,重点研究了学生 t 先验和分层高斯先验,以及特征选择的先验,结果表明在实际问题中使用分层先验的学习论益处往往是很小的。
May, 2015
本文提出了一种基于随机序列算法的最小化极限风险收敛速率的方法,其鲁棒性得到了保证, 并对于损失函数的凸度及输出分布中的噪声级别等因素,提供了紧凑的可执行上限界。
Mar, 2007
本文基于 (Xu&Raginsky,2020) 近期的研究结果对贝叶斯学习中的最小过剩风险进行分析和推导其信息理论界限,并展示了它如何被两个更易于研究的率失真函数上下界限制所限制,最后论证这些边界的差异提供了关于 MER 的秩序紧密的率。
May, 2021
本文研究在隐私模型下的统计风险最小化问题,针对局部隐私框架,确定了统计估计过程的收敛速率上下限,并展示了数据保留隐私量与任何统计估计器或学习程序的收敛速率之间的精确权衡。
Oct, 2012
在线学习排序的领域,Bayesian ranking bandit algorithms 已被证明可以使用先前的知识来提高效能。本文提出并分析了自适应的算法,解决了现有工作需要匹配真实先验的主要局限性,并将这些结果扩展到线性和广义线性模型。此外,我们还考虑点击反馈措施,并通过合成和现实世界实验证明了我们算法的有效性。
Jan, 2023
本文从贝叶斯角度探讨了在相关任务环境下学习适当的偏差问题,并展示了环境的概念是自然地模拟了任务的目标先验分布。本文论证了对于许多常见的机器学习问题,虽然我们不知道问题的真正(客观)先验分布,但我们可以对真正的先验分布可能属于的一组可能的先验分布有一些想法。在这些情况下,本文展示了学习者可以使用贝叶斯推断通过从客观先验中进行采样来学习真实先验分布。当同时学习多个任务时,给出了学习任务所需信息量的下限。这些下限表明,如果学习者很少了解真实先验分布,且真实先验分布的维数很小,则采样多个任务是非常有优势的。
Nov, 2019
最小最大分位数是一种对比特定统计程序的黄金标准,通过引入该概念及其依赖分位水平的表达方式,作者开发了新的方法来研究鲁棒性估计问题,得到了多个重要结果,包括协方差矩阵估计、稀疏线性回归、非参数密度估计、保序回归等。作者的目标是通过最小最大分位数提供对统计问题难度的更仔细理解,并通过用户友好的工具获得这些数量的下界。
Jun, 2024
本文讨论强化学习中的不确定性估计问题,为解决序列决策问题提出了一种随机不可训练 “先验” 网络的方法。实验证明该方法对于线性和非线性表示方法均有效,并且相较之前的尝试在大规模问题上表现更佳。
Jun, 2018
提出一种将对抗学习问题转化为极小极大问题分析风险界的一般性方法,并应用于多类分类问题中的 SVM、深度神经网络和 PCA 等,为此提出了一种新的基于 Lipschitz 条件弱版本的覆盖数的风险界,并改进了包含两个依赖于数据的项的界,以实现对抗鲁棒性。
Nov, 2018