停止回归：通过分类训练值函数用于可扩展深度强化学习

Mar, 2024

停止回归：通过分类训练值函数用于可扩展深度强化学习

Stop Regressing: Training Value Functions via Classification for Scalable Deep RL

Jesse Farebrother, Jordi Orbay, Quan Vuong, Adrien Ali Taïga, Yevgen Chebotar...

TL;DR将分类交叉熵用于训练价值函数可显著提高深度强化学习的扩展性。

Abstract

value functions are a central component of deep reinforcement learning (RL). These functions, parameterized by neural networks, are trained using a mean squared error →

value functions deep reinforcement learning regression classification scalability

发现论文，激发创造

离线强化学习中的值函数估计是否能与分类器插件一起联动？

通过大规模实验和不同算法的多样性任务，我们的研究旨在实证地调查这种替代方法对性能的影响，结果显示在某些任务中，这种改变可以实现超过现有解决方案的卓越性能，而在其他任务中保持相当的性能水平；然而对于其他算法，此修改可能导致性能的显著下降。这些发现对进一步应用于研究和实际任务的分类方法至关重要。

Jun, 2024

面向能适应非结构化数据的无模型强化学习算法的发展

强化学习算法在尺度递增和非结构化观测方面表现良好的方法，能够有效利用外部知识构建预测结构，并提供环境和算法供研究无结构观测向量和平面动作空间的缩放问题。

Nov, 2023

标签多样性的深度顺序回归

本文提出在深度神经网络中，同时使用多个离散数据表示可以提高神经网络学习效果，并证明其比传统方法（如基于单一表示的 RvC 模型）更加有效。

Jun, 2020

使用序数熵改进深度回归

本研究研究计算机视觉中回归问题的分类方法，发现使用交叉熵损失的分类方法比均方误差损失的回归方法具有更好的性能，同时提出了一种序数熵损失方法以鼓励高熵的特征空间并维护序数关系来提高回归任务的性能。实验结果表明增加熵对于回归任务的重要性和好处。

Jan, 2023

重新思考强化学习中的值函数学习以实现泛化

本研究旨在训练多个视觉环境下的 RL 代理以提高观察泛化性能，并提出了一种延迟评论者策略梯度（DCPG）算法，该算法可以使用单一统一的网络架构来实现，极大地提高了 Procgen 基准测试的样本效率和观测泛化性能。

Oct, 2022

基于交叉熵引导策略的连续动作 Q 学习

本文提出了一个名为 Cross-Entropy Guided Policies (CGP) 的新方法来将 Q-learning 与使用 Cross-Entropy Method (CEM) 的迭代采样策略相结合，以提高其在连续值动作域中的运行速度和稳定性。

Mar, 2019

使用深度强化学习进行代价昂贵的特征分类

本文研究一个分类问题，针对特征的代价进行优化，通过应用神经网络的顺序决策方法来解决分类问题，表现与专为此问题开发的算法相当，并且灵活性高，可通过引入预先训练的高性能分类器来改进。

Nov, 2017

基于模型的强化学习与价值目标回归

本文研究基于模型的强化学习中的后悔最小化问题，提出一种基于乐观主义原则和线性混合模型的算法，并推导出一些后悔界的理论结果。

Jun, 2020

深度强化学习邀请

通过将强化学习视为监督学习的一种推广，本文介绍了一个与经典强化学习教材不同的方法，使读者在了解基本的监督学习知识后能够理解类似于近端策略优化（PPO）的最新深度强化学习算法。

Dec, 2023

使用分布式损失来提高回归性能

在多个学科领域中发现，将目标转换为软目标可提高性能，本研究考察了分布式回归损失（distributional regression loss）在学习分布时的表现，并发现它在改善预测准确率方面显著提高，我们提供了理论支持，表明此损失由于其更好的梯度表现，易于优化导致了这种改进。

Jun, 2018