次线性超体积遗憾的最佳标量化方法

ICMLJul, 2023

次线性超体积遗憾的最佳标量化方法

Optimal Scalarizations for Sublinear Hypervolume Regret

Qiuyi Zhang

TL;DR使用综合性标量化技术来探索 Pareto 前沿上的多样化目标集合，证明均匀随机权重的超体积标量化方法在减小超体积遗憾方面是最优的，并在多目标随机线性赌博机问题中得出新的非欧几里得分析结果，获得了改进的超体积遗憾界限。

Abstract

scalarization is a general technique that can be deployed in any multiobjective setting to reduce multiple objectives into one, such as recently in RLHF for training reward models that align human preferences. Ye

scalarization multiobjective setting pareto frontier hypervolume scalarizations regret bounds

发现论文，激发创造

随机超体积标量化技术的可证明多目标黑盒优化

本文提出了一种称为 hypervolume scalarization 的标量化函数，并显示出如何从适当选择的分布中绘制随机标量化以有效地近似 hypervolume indicator metric，进而用此联系说明 Bayesian optimization 具有证明收敛到整个 Pareto frontier 的保证收敛性，同时凸显了标量化框架的一般实用性。

Jun, 2020

基于随机标量化的多目标贝叶斯优化的灵活框架

本文提出了一种基于随机标量化策略的多目标优化方法，可快速、灵活地从 Pareto 前沿的特定区域中采样，且在多项真实问题和合成问题的实验中显示了良好表现。

May, 2018

多对数级别的极小极大遗憾的线性赌博机

研究线性随机赌博机的噪声模型，介绍一种基于加权最小二乘估计的算法，能够最小化后悔度，通过几何论证独立于噪声模型，能够紧密控制每个时间步骤的期望后悔度为 O (1/t)，从而导致了累积后悔度的对数缩放。

Feb, 2024

多任务学习中标量化的重新审视：一个理论视角

在多任务学习领域的研究中，线性标量化一直是文献中的默认选择。然而，近年来出现了将多任务学习视为多目标优化问题的专用多任务优化器（SMTOs）的兴趣激增，因此是否有 SMTOs 相对于标量化算法的基本优势还是个开放的问题。本文从理论角度重新审视标量化，研究线性多任务学习模型是否能完全探索帕累托前沿，并发现无法实现全面探索，特别是那些在多个任务之间取得平衡权衡的帕累托最优解。实验证实了我们的理论发现，并揭示了 SMTOs 在寻求平衡解决方案方面的潜力。

Aug, 2023

在希尔伯特空间中改进的自标准化集中度：GP-UCB 的次线性遗憾

本文解决了若干向来未解的开放性问题，提供了超线性收敛速度，证明了 GP-UCB 算法在大多数流行核函数上具有最优回报，且证明了简化版本的自标准化集中不等式和超鞅技术是关键技术工具。

Jul, 2023

VO$Q$L: 非线性函数逼近下无模型强化学习的最优遗憾

该研究旨在通过引入新算法 VOQL，改进理论边界，并实现对线性 MDP 等函数类的回归任务进行计算上的高效且统计优化的可行性。

Dec, 2022

多目标 QUBO 求解的标量化技术研究

本篇研究探讨将多个目标转化为单一目标的方法，在集合约束均值 - 方差投资组合优化问题上，迭代填充帕累托前沿中最大空间的方法可以显著提高性能。

Oct, 2022

改进方差自适应线性赌博机和无时序线性混合马尔可夫决策过程的遗憾分析

本篇论文研究在线学习中的方差自适应算法，提出了适用于线性赌臂机以及线性混合马尔可夫决策过程的遗憾界分析，该方法在未知方差的情况下，能够实现 Regret 的拟多项式算法复杂度降低。

Nov, 2021

利用线性函数近似的强化学习的一阶遗憾：一种鲁棒估计方法

本研究基于鲁棒 Catoni 平均值估计器，提出一种新的鲁棒自归一化浓度界，解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题，并证明了在线性 MDP 设定下，可以获得与最优策略性能某种度量成比例的遗憾上界。

Dec, 2021

方差感知稀疏线性赌博机

本文发展了一种数据稀疏 (稀疏线性斯托剖斯) 的新型算法，该算法使较小的环境维度下研究致命后果的风险得以降低，实现了一种有区别的、具有人造和样本方差适应性的总体安全算法。同时，该研究还探讨了如何在一种 <黑盒> 化的方式下将任何方差算法转化为 sparce linear bandits 算法。

May, 2022