再探 Softmax Bellman Operator: 新的益处与新的视角

ICMLDec, 2018

再探 Softmax Bellman Operator: 新的益处与新的视角

Revisiting the Softmax Bellman Operator: New Benefits and New Perspective

Zhao Song, Ronald E. Parr, Lawrence Carin

TL;DR本文研究了在强化学习领域中，softmax 对值函数本身的影响，表明其虽然与 Bellman operator 的收敛性质有冲突，但在值函数近似的情况下，结合深度 Q 学习可以产生更出色的 Q-function 性能，并可减少 overestimation error。

Abstract

The impact of softmax on the value function itself in reinforcement learning (RL) is often viewed as problematic because it leads to sub-o

softmax reinforcement learning q-functions bellman operator value function

发现论文，激发创造

强化学习中的另一种 Softmax 算子

研究发现 Boltzmann softmax 运算符在顺序决策制定中容易出现异常，在此基础上，提出了一种可微分的 softmax 运算符，并引入了一种基于新算子的 SARSA 算法，计算出具有状态相关温度参数的 Boltzmann 策略，该算法具有收敛性和实用性。

Dec, 2016

使用线性函数逼近的 $Q$- 学习收敛的多贝尔曼算子

我们研究了具有线性函数逼近的 $Q$- 学习的收敛性。我们的关键贡献是引入了一个新颖的多 Bellman 算子，它扩展了传统的 Bellman 算子。通过探索该算子的属性，我们确定了投影的多 Bellman 算子变得收敛的条件，与 Bellman 算子相比，提供了改进的定点保证。为了利用这些认识，我们提出了具有线性函数逼近的多 $Q$- 学习算法。我们证明了该算法收敛到投影的多 Bellman 算子的稳定点，能够得到任意精度的解。最后，我们通过将其应用于众所周知的环境来验证我们的方法，展示了我们研究结果的有效性和适用性。

Sep, 2023

Softmax 函数的特性及其在博弈论和强化学习中的应用

本文利用凸分析和单调算子理论来推导 softmax 函数的其他性质，揭示其与对数 - 求和 - 指数函数之间的单调梯度映射关系，同时利用这种联系表明了其反温度参数决定了 softmax 函数的 Lipschitz 和共同强制性质，并通过一个游戏理论强化学习的应用展示了这些性质的有用性。

Apr, 2017

解决贝尔曼方程的核损失

本文提出了一种新的损失函数，可以使用标准的梯度下降优化，避免了以往算法中需要双样本的问题，并可以与深度学习等函数类相结合，且在多个基准测试中表现可靠和有效。

May, 2019

SBEED：非线性函数逼近的收敛强化学习

本文使用 Nesterov 的平滑技术和 Legendre-Fenchel 变换将贝尔曼方程式重新构成一个新的原始对偶优化问题，并开发了一个名为平滑贝尔曼误差嵌入的新算法来解决这个优化问题，其中可以使用任何可微分类函数。我们提供了通用非线性函数逼近的第一个收敛保证，并分析了算法的样本复杂度。经验上，我们的算法在几个基准控制问题中与最先进的基准线相比表现得非常好。

Dec, 2017

探索 Softmax 的前沿：可证明的优化、扩散模型应用与更多

通过理论研究两层 softmax 神经网络的优化和泛化性质，揭示了 softmax 函数的归一化效应对所引起的神经核矩阵的扰动性能具有利于构建良好的损失函数曲面凸区域，从而 softmax 神经网络可以在超参数多于样本数量的情况下学习目标函数。

May, 2024

使用 Softmax 策略梯度的冷启动强化学习

本文提出了一种基于 softmax 价值函数的强化学习方法，它不需要 warm-start 和样本方差的降低，结合了 policy-gradient 方法和最大似然方法的优点，用于训练结构化输出预测问题的序列生成模型，经实验证明，在文本自动摘要和图像字幕生成任务上性能良好。

Sep, 2017

带线性函数逼近的正则化 Q 学习

通过在有限时间内收敛到线性函数逼近情况下的投影贝尔曼误差的单环路算法，本文提出的算法在马尔科夫噪声存在的情况下收敛于稳定点，并为该算法衍生的策略提供性能保证。

Jan, 2024

基于注意力机制的 Softmax 回归

本文探讨了大型语言模型（LLMs）的 softmax 单元，在 LLMs 中的重要性与在具有凸优化问题的中心路径法等其他应用中的使用，同时提出并证明了一种基于贪心算法的 softmax 回归方法，为了在实践中使用此方法提供了理论支持。

Apr, 2023

迭代 Q 网络：超越一步 Bellman 算子

值基于强化学习的研究论文，介绍了一种新方法 (iterated Q-Networks)，通过多次迭代 Bellman 算子来学习一系列 Q 函数逼近，理论上可行，并可无缝地应用于基于价值和演员 - 评论家方法。在 Atari 2600 游戏和连续控制 MuJoCo 环境中，通过实验证明了其优势。

Mar, 2024