Mar, 2024

通过鞍点优化实现遗憾最小化

TL;DR通过最小化后悔的样本复杂性,本论文提出了一种基于决策 - 估计系数(DEC)的在线算法,用于优化结构化强化学习和有限模型类的探索 - 利用平衡问题。