本文提出了一种称为 hypervolume scalarization 的标量化函数,并显示出如何从适当选择的分布中绘制随机标量化以有效地近似 hypervolume indicator metric,进而用此联系说明 Bayesian optimization 具有证明收敛到整个 Pareto frontier 的保证收敛性,同时凸显了标量化框架的一般实用性。
Jun, 2020
本文提出了一种基于随机标量化策略的多目标优化方法,可快速、灵活地从 Pareto 前沿的特定区域中采样,且在多项真实问题和合成问题的实验中显示了良好表现。
May, 2018
研究线性随机赌博机的噪声模型,介绍一种基于加权最小二乘估计的算法,能够最小化后悔度,通过几何论证独立于噪声模型,能够紧密控制每个时间步骤的期望后悔度为 O (1/t),从而导致了累积后悔度的对数缩放。
Feb, 2024
在多任务学习领域的研究中,线性标量化一直是文献中的默认选择。然而,近年来出现了将多任务学习视为多目标优化问题的专用多任务优化器(SMTOs)的兴趣激增,因此是否有 SMTOs 相对于标量化算法的基本优势还是个开放的问题。本文从理论角度重新审视标量化,研究线性多任务学习模型是否能完全探索帕累托前沿,并发现无法实现全面探索,特别是那些在多个任务之间取得平衡权衡的帕累托最优解。实验证实了我们的理论发现,并揭示了 SMTOs 在寻求平衡解决方案方面的潜力。
Aug, 2023
本文解决了若干向来未解的开放性问题,提供了超线性收敛速度,证明了 GP-UCB 算法在大多数流行核函数上具有最优回报,且证明了简化版本的自标准化集中不等式和超鞅技术是关键技术工具。
Jul, 2023
该研究旨在通过引入新算法 VOQL,改进理论边界,并实现对线性 MDP 等函数类的回归任务进行计算上的高效且统计优化的可行性。
Dec, 2022
本篇研究探讨将多个目标转化为单一目标的方法,在集合约束均值 - 方差投资组合优化问题上,迭代填充帕累托前沿中最大空间的方法可以显著提高性能。
Oct, 2022
本篇论文研究在线学习中的方差自适应算法,提出了适用于线性赌臂机以及线性混合马尔可夫决策过程的遗憾界分析,该方法在未知方差的情况下,能够实现 Regret 的拟多项式算法复杂度降低。
Nov, 2021
本研究基于鲁棒 Catoni 平均值估计器,提出一种新的鲁棒自归一化浓度界,解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题,并证明了在线性 MDP 设定下,可以获得与最优策略性能某种度量成比例的遗憾上界。
Dec, 2021
本文发展了一种数据稀疏 (稀疏线性斯托剖斯) 的新型算法,该算法使较小的环境维度下研究致命后果的风险得以降低,实现了一种有区别的、具有人造和样本方差适应性的总体安全算法。同时,该研究还探讨了如何在一种 <黑盒> 化的方式下将任何方差算法转化为 sparce linear bandits 算法。
May, 2022