Jul, 2024

多点反馈的安全在线凸优化

TL;DR在实际应用中,考虑安全的在线凸优化环境,需要同时实现亚线性遗憾和零约束违反,且仅使用零阶信息。为此,提出了一种算法,利用前向差分梯度估计以及乐观和悲观行动集,在约束函数平滑且强凸的条件下实现 𝒪(𝑑√𝑇) 遗憾和零约束违反,并进行了数值研究以探究未知约束和零阶反馈对实证效果的影响。