BriefGPT.xyz
Ask
alpha
关键词
polynomial-time approximation scheme
搜索结果 - 2
多项式时间下的受限强化学习确定性策略
我们提出了一种新颖的算法,能够高效计算约束强化学习问题的近似最优确定性策略。该算法通过三个关键思想进行组合:(1)价值需求增强,(2)动作空间的近似动态规划,以及(3)时间空间的取整。在较弱的奖励假设下,我们的算法构成了一个对多样化成本准则
→
PDF
a month ago
从理论到实践:布尔和有限域矩阵分解
基于针对实践的 heuristics 我们提出了一种新的算法,它基于 BMF 的最新的理论进展,用于在有限域上找到 GF (p)-Matrix 分解的有效多项式时间逼近方案,并通过人工合成和现实世界数据的实证研究证明了我们算法的优越性。
PDF
2 years ago
Prev
Next