一种具有解释性参数调整的鲁棒分位数 Huber 损失在分布式强化学习中的应用

Jan, 2024

一种具有解释性参数调整的鲁棒分位数 Huber 损失在分布式强化学习中的应用

A Robust Quantile Huber Loss With Interpretable Parameter Adjustment In Distributional Reinforcement Learning

Parvin Malekzadeh, Konstantinos N. Plataniotis, Zissis Poulos, Zeyu Wang

TL;DR通过广义分位数 Huber 损失函数从高斯分布之间的 Wasserstein 距离计算出噪声，本文提出了一种广义的分位数 Huber 损失函数，主要用于在分布性强化学习中估计回报分布。与经典分位数 Huber 损失相比，该创新损失函数增强了对异常值的鲁棒性，且经过实证测试验证了其在 Atari 游戏和最新对冲策略中应用于分布性强化学习的效果以及在参数调整中的潜力。

Abstract

distributional reinforcement learning (RL) estimates return distribution mainly by learning quantile values via minimizing the quantile huber loss function, entailing a threshold parameter often selected heuristi

distributional reinforcement learning quantile huber loss wasserstein distance robustness against outliers parameter adjustments

发现论文，激发创造

Huber 损失函数的概率解释的另一种方法

本文提出了 Huber 损失的一种新的概率解释方法，该方法与 Laplace 分布间 Kullback-Leibler 散度的上界最小化相关，并通过模拟噪声分布来确定 Huber 损失的最适超参数值。

Nov, 2019

分布式强化学习全参数分位函数

本文提出了一种新的分布式强化学习算法，该算法采用完全参数化分位函数，通过参数化分位函数的分位数量轴和值轴来更好地估计连续分布，并在 Atar 游戏环境中得到了前所未有的表现。

Nov, 2019

基于 Quantile 回归的分布式强化学习的 Cramér 距离视角

本文研究分布强化学习中的分位回归，证明 Cram´er 距离得到的投影与 1-Wasserstein 距离的投影相同，并提出了一种低复杂度算法来计算 Cram´er 距离，在非交叉限制下，squared Cram´er 和分位回归损失具有共线性，从而揭示了分布强化学习中相关要素之间的联系。

Oct, 2021

基于分位损失函数的高维分布式回归

本文研究了具有重尾噪声的高维线性回归模型的分布式估计和支持恢复，并采用分位数回归损失函数来处理噪声。我们提出了一种计算和通信效率高的分布式估计器，理论上表明该方法在少数迭代后即能达到近乎理想的收敛速度，并且还为支持恢复提供了理论保证。

Jun, 2019

深层 Huber 分位回归网络

DHQRN 是一种采用 Huber 分位数回归网络的 Deep Learning 算法，能够更全面地预测预测概率分布的数量级和不确定性，论文通过澳大利亚房价数据进行了验证。

Jun, 2023

隐式分位数网络用于分布式强化学习

本文介绍了一种基于分布式强化学习的方法，通过使用分位回归来逼近状态 - 动作回报分布的全量位函数来得到一个灵活、高效且可应用于各种环境的动态规划方法，并通过在 57 个 Atari 2600 游戏中的表现来展示算法的性能，并使用其隐式定义的分布来研究风险敏感性政策在 Atari 游戏中的效果。

Jun, 2018

一种通用且自适应的鲁棒性损失函数

本文提出了一种连续参数化的健壮损失函数，通过将健壮性作为参数，可以泛化到多种常见的概率分布并基于该损失函数训练神经网络从而应用于无监督学习等任务。

Jan, 2017

分位数回归的分布式强化学习

本文介绍了一种分布强化学习方法，不仅仅用于估计价值函数的平均值，而是显式地建模返回的分布，通过闭合实验和文献相关得到了一些理论和算法上的结果，最后在 Atari 2600 游戏中，该算法的表现显著优于许多 DQN 的改进方案，包括相关的分布式算法 C51。

Oct, 2017

一种使用 Huber 损失度量的量化矩阵完成新方法

该论文介绍了一种新的量化矩阵补全方法，利用排名最小化问题和 Huber 损失函数来控制异常值，使用光滑排名逼近技术对真实数据矩阵降维，并借助梯度下降优化算法求解约束问题。

Oct, 2018

在线和分布自由鲁棒性：带 Huber 污染的回归和上下文臂

本文从对抗鲁棒性的角度重新审视了两个经典的高维在线学习问题，即线性回归和情境地图，并探究了无需假设数据分布，直接从全局角度保证它们对抗鲁棒的可行性。具体方法是通过交替最小化策略将普通最小二乘法嵌入到简单的凸约束计算不完整数据下的最优加权分布，并证明该方法在污染程度方面具有最佳的可重复性和完整性。

Oct, 2020