BriefGPT.xyz
Nov, 2023
约束线性赌臂问题的凸方法
Convex Methods for Constrained Linear Bandits
HTML
PDF
Amirhossein Afsharrad, Ahmadreza Moradipari, Sanjay Lall
TL;DR
近年来,与人类不断互动的现实世界安全关键系统中的强盗优化引起了极大关注。本文提出了一个综合性研究,重点研究了安全线性强盗算法的计算方面,通过引入凸规划工具创建了计算效率高的策略。具体而言,我们首先对安全线性强盗问题的最优策略进行了特征化,并提出了一个仅涉及求解凸问题的端到端安全线性强盗算法流程。我们还对我们提出的方法的性能进行了数值评估。
Abstract
Recently,
bandit optimization
has received significant attention in real-world
safety-critical systems
that involve repeated interactions with humans. While there exist various algorithms with performance guarant
→