BriefGPT.xyz
Ask
alpha
关键词
episodic
搜索结果 - 2
MM
凸凹和背包约束下的有约束情节增强学习
我们提出了一个算法,用于带有约束的表格式状态机器学习,并提供了强有力的理论保证,适用于具有凹收益和凸约束或具有纯硬约束(背包)的情况。我们的实验表明,所提出的算法在现有的约束性情境中明显优于以前的工作,且超过线性约束和只有一个情节的简单情境
→
PDF
4 years ago
广义线性函数逼近强化学习中的乐观主义
本论文提出了一种新的基于广义线性函数逼近的回合式强化学习算法,并在乐观闭合假设下分析其性能,证明了其具有更低的复杂度,并且是强化学习中第一个具有统计和计算效率的基于广义线性函数的算法。
PDF
5 years ago
Prev
Next