BriefGPT.xyz
Ask
alpha
关键词
large number of actions
搜索结果 - 2
Tsallis 熵正则化 MDP 中的路径一致性学习
本研究研究了稀疏熵正则化强化学习问题,提出了一种新颖的路径一致性学习算法,名为 “稀疏 PCL”,并证明它比标准的 Shannon 熵正则化 RL(软 ERL)问题更优,特别是在动作数量较多的情况下。
PDF
6 years ago
一个无需参数的对冲算法
本文聚焦于大量行动决策问题的决策理论在线学习(DTOL)。我们提出了一种全新无需参数的算法用于 DTOL,这解决了在线学习因无法在实际中优化设定学习率参数的困境。此外,我们引入了一种新的错误度量标准,该算法可以在此标准和以前的标准下实现优异
→
PDF
15 years ago
Prev
Next