BriefGPT.xyz
Ask
alpha
关键词
concave utility reinforcement learning
搜索结果 - 3
MetaCURL: 非平稳凹效用强化学习
我们通过元算法和专家集成的方法在非平稳环境(变换的损失和概率转换)中探索在线学习在无环节马尔可夫决策过程中的应用,重点研究了处理凸性性能准则的经典强化学习的扩展问题 CURL。我们的方法能够在部分信息下,不需要先验的 MDP 更改知识,实现
→
PDF
a month ago
逆凹效用增强学习即逆博弈论
我们提出了新的逆反强化学习问题的理论框架,将 concave function 应用于 CURL,并创造性地将其等效于 mean-field games 的逆博弈理论问题,从而揭示了 CURL 问题与传统逆强化学习不同的特性和挑战。
PDF
a month ago
凹形效用强化学习:均场博弈的视角
本研究介绍了基于凹效用函数的强化学习模型 CURL,它扩展了线性到凹效用,同时将模仿学习和探索等领域纳入范畴。该模型违反经典 Bellman 方程,需要新算法。本文通过证明 CURL 是 MFG 的子类,将两个社区联系了起来,并通过实验表明
→
PDF
3 years ago
Prev
Next