Oct, 2023

多点带约束的强化凸优化反馈

TL;DR本文研究带有约束的赌博性凸优化问题,在部分信息的损失函数下,学习者旨在生成一系列决策,使得累计损失减少,同时累计违约累积也在减少。我们采用累计硬约束违反作为约束违反的指标,并提出了一种基于罚函数的近端梯度下降方法,能够在凸损失函数和时变约束下实现次线性增长的遗憾和累计硬约束违反界限。