停止回归:通过分类训练值函数用于可扩展深度强化学习
通过大规模实验和不同算法的多样性任务,我们的研究旨在实证地调查这种替代方法对性能的影响,结果显示在某些任务中,这种改变可以实现超过现有解决方案的卓越性能,而在其他任务中保持相当的性能水平;然而对于其他算法,此修改可能导致性能的显著下降。这些发现对进一步应用于研究和实际任务的分类方法至关重要。
Jun, 2024
强化学习算法在尺度递增和非结构化观测方面表现良好的方法,能够有效利用外部知识构建预测结构,并提供环境和算法供研究无结构观测向量和平面动作空间的缩放问题。
Nov, 2023
本研究研究计算机视觉中回归问题的分类方法,发现使用交叉熵损失的分类方法比均方误差损失的回归方法具有更好的性能,同时提出了一种序数熵损失方法以鼓励高熵的特征空间并维护序数关系来提高回归任务的性能。实验结果表明增加熵对于回归任务的重要性和好处。
Jan, 2023
本研究旨在训练多个视觉环境下的 RL 代理以提高观察泛化性能,并提出了一种延迟评论者策略梯度(DCPG)算法,该算法可以使用单一统一的网络架构来实现,极大地提高了 Procgen 基准测试的样本效率和观测泛化性能。
Oct, 2022
本文提出了一个名为 Cross-Entropy Guided Policies (CGP) 的新方法来将 Q-learning 与使用 Cross-Entropy Method (CEM) 的迭代采样策略相结合,以提高其在连续值动作域中的运行速度和稳定性。
Mar, 2019
本文研究一个分类问题,针对特征的代价进行优化,通过应用神经网络的顺序决策方法来解决分类问题,表现与专为此问题开发的算法相当,并且灵活性高,可通过引入预先训练的高性能分类器来改进。
Nov, 2017
通过将强化学习视为监督学习的一种推广,本文介绍了一个与经典强化学习教材不同的方法,使读者在了解基本的监督学习知识后能够理解类似于近端策略优化(PPO)的最新深度强化学习算法。
Dec, 2023
在多个学科领域中发现,将目标转换为软目标可提高性能,本研究考察了分布式回归损失(distributional regression loss)在学习分布时的表现,并发现它在改善预测准确率方面显著提高,我们提供了理论支持,表明此损失由于其更好的梯度表现,易于优化导致了这种改进。
Jun, 2018