结构预测的 Softmax Q 分布估计：RAML 的理论解释

ICLRMay, 2017

结构预测的 Softmax Q 分布估计：RAML 的理论解释

Softmax Q-Distribution Estimation for Structured Prediction: A Theoretical Interpretation for RAML

Xuezhe Ma, Pengcheng Yin, Jingzhou Liu, Graham Neubig, Eduard Hovy

TL;DR介绍了一种用于直接优化结构化预测任务中奖励函数的学习框架 Reward augmented maximum likelihood（RAML），其理论解释基于 softmax Q - 分布估计，并给出 RAMl 与贝叶斯决策理论之间的关系，通过实验证明 RAMl 可以提高结构化预测任务的最大似然基准。

Abstract

reward augmented maximum likelihood (RAML), a simple and effective learning framework to directly optimize towards the reward function in structured prediction tasks, has led to a number of impressive empirical successes. RAML incorporates task-specific reward by performing maximum-lik

reward augmented maximum likelihood structured prediction tasks softmax q-distribution estimation bayesian decision theory structured prediction

发现论文，激发创造

神经结构预测的奖励最大似然

本文提出了一种简单而高效的方法，在最大似然框架中实现任务奖励的直接优化，将其融入到结构化输出预测的问题中，并尝试使用奖励最大化条件分布来优化模型。实验结果表明，该方法在语音识别和机器翻译任务上实现了显著的性能提升。

Sep, 2016

再探 Softmax Bellman Operator: 新的益处与新的视角

本文研究了在强化学习领域中，softmax 对值函数本身的影响，表明其虽然与 Bellman operator 的收敛性质有冲突，但在值函数近似的情况下，结合深度 Q 学习可以产生更出色的 Q-function 性能，并可减少 overestimation error。

Dec, 2018

多项选择问答中，Softmax 概率（在很大程度上）预测大规模语言模型的正确性

大型语言模型在多项选择问答任务中的最大 softmax 概率 (MSP) 与正确答案相比与错误答案相关性强，对问答任务表现优异的模型的 MSP 生成的 AUROC 在 59/60 情况中高于随机概率，并在最佳的六个模型中 AUROC 平均为 60% 到 69%。通过基于初始模型响应的 MSP 有选择地弃权，提出了一种能提高性能的多项选择问答任务。同样，我们使用预修正前 logit 进行了相同的实验，并获得了类似 (但不完全相同) 的结果。

Feb, 2024

BSL：理解和改进用于推荐的 Softmax 损失函数

通过理论分析我们发现 Softmax loss (SL) 的强大性能是由于对负数据分布进行了 Distributionally Robust Optimization (DRO)，因此具有鲁棒性；相较于其他损失函数，SL 隐式地惩罚预测方差，从而得到更公平的结果。基于这些见解，我们进一步提出了一种新的损失函数 Bilateral SoftMax Loss (BSL)，可以使模型对于噪声正例具有鲁棒性。值得一提的是，BSL 相较于 SL 只需添加一行代码即可实现。通过实验证明了我们提出的方法的有效性。

Dec, 2023

基于注意力机制的 Softmax 回归

本文探讨了大型语言模型（LLMs）的 softmax 单元，在 LLMs 中的重要性与在具有凸优化问题的中心路径法等其他应用中的使用，同时提出并证明了一种基于贪心算法的 softmax 回归方法，为了在实践中使用此方法提供了理论支持。

Apr, 2023

从信用分配到熵正则化：神经序列预测的两个新算法

本论文研究了奖励增强最大似然学习的信用分配问题，并在令牌级的 RAML 和熵正则化强化学习之间建立了理论等价性。在两个基准数据集上，我们展示了所提出的算法分别优于 RAML 和 Actor-Critic，为序列预测提供了新的选择。

Apr, 2018

Q-Munchausen 强化学习

本文针对 Munchausen 强化学习在 Tsallis sparsemax 策略下无法表现出优越性能的问题，提出了基于 Tsallis Entropy 的 $q$-logarithm/exponential 方法，解决了传统 logarithm 和非 logarithmic Tsallis entropy 之间的不匹配问题，使 M-RL 能在 Tsallis entropy 框架下实现隐式的 KL 规则正化，同时在标准测试问题上取得了超越表现。

May, 2022

Softmax 模型和杠杆得分模型的二元假设检验

通过研究 softmax 分布和 leverage score 模型，在二元假设测试问题上得出了与样本复杂度相关的结果。

May, 2024

Q-Probe: 语言模型奖励最大化的轻量级方法

使用一种称为 Q-probing 的方法，适应预训练语言模型以最大化任务特定的奖励函数，并通过学习模型嵌入空间上的简单线性函数来重新加权候选完成，从而获得在基于地面真实奖励（代码生成）和偏好数据定义的隐式奖励的领域中的增益。

Feb, 2024

极端 Q-Learning: 无熵最大熵强化学习

本文提出了一个名为 Extreme Q-Learning 的在线和离线 MaxEnt Q-learning 算法，通过使用极值理论（EVT）来直接建模最大价值，而无需使用超出分布的操作估计 Q 值。该算法在 D4RL 基准测试中表现良好，并在在线 DM 控制任务上适度改进了 SAC 和 TD3。

Jan, 2023