Mar, 2024

改进的对抗性线性混合马尔可夫决策过程算法:带有赌博反馈和未知状态转移

TL;DR我们研究了采用线性函数逼近、未知转移和对抗性损失函数的强化学习算法在强化学习环境下。