神经自回归序列建模中的模式恢复

ACLJun, 2021

神经自回归序列建模中的模式恢复

Mode recovery in neural autoregressive sequence modeling

Ilia Kulikov, Sean Welleck, Kyunghyun Cho

TL;DR通过研究分布的模式如何在全学习链中维持来研究最大似然训练的神经自回归序列模型中的潜在问题，我们发现未来的研究必须考虑整个学习链，以充分了解神经自回归序列模型的潜力和危险，并进一步提高其性能。

Abstract

Despite its wide use, recent studies have revealed unexpected and undesirable properties of neural autoregressive sequence models trained with maximum likelihood, such as an unreasonably high affinity to short sequences after training and to infinitely long sequences at decoding time.

neural autoregressive sequence models maximum likelihood ground-truth distribution mode recovery cost learning chain

发现论文，激发创造

全局自回归模型用于数据高效的序列学习

介绍了一个基于 seq2seq 模型的 GAM（Global Autoregressive Models）的类，将自回归组件与对数线性组件相结合，在小数据条件下使用全局先验特征来补偿数据不足，并使用两个步骤来训练此模型，实验表明，使用第二个自回归模型可以强有力地减少混乱度。

Sep, 2019

神经序列建模任务损失最小化参数搜索中的 MLE 指导

本文提出了一种名为 MGS 的新方法，其中基于随机搜索参数空间的分布，使用非确定性方法引导参数更新方向，从而优化序列级别的任务损失，实现了显著的重复性和非终止性减少，并产生与最小风险训练相似的性能。

Jun, 2020

关于概率序列模型的高效边缘化

使用自回归模型回答超出单步预测的复杂概率查询，包括未来事件的时机和特定事件在另一事件发生之前的可能性。通过开发一类宽泛的、高效的近似技术，对顺序模型中的边缘化进行建模。这些技术仅依赖于对预先训练的自回归模型的下一步条件分布的访问和采样，包括传统参数模型和最近的神经自回归模型。针对离散顺序模型、标记的时间点过程和随机跳跃过程，提出了具体的方法，每个方法都适用于一类明确定义的信息丰富、长程概率查询。

Mar, 2024

MAP 还未过时：通过去除退化性条件揭示真实的语言模型模式

混合低熵噪声与自然语言生成模型的训练数据可以导致退化模式，因此建议将最大后验（MAP）解码应用于避免特定退化的条件模型分布，研究发现机器翻译模型和语言模型的长度条件模式比无条件模式更流畅和主题相关。

Nov, 2023

MAP 译码足矣吗？神经机器翻译中模式的不足

论文针对神经机器翻译 (NMT) 系统中出现的一些问题进行了研究，发现这些问题主要与最大后验概率推断 (MAP) 解码以及解码过程中使用的决策规则有关，而非 NMT 的统计假设或最大似然估计算法。作者倡导使用考虑翻译分布整体性的决策规则，证明了最小贝叶斯风险解码的近似方法具有良好的效果。

May, 2020

具有鲁棒性的变分 LSTM 对未知变化模式的识别：应用于面部表情识别

本文提出了针对序列中存在的模式变化、可以提高其稳健性和鲁棒性的可变模式 LSTM 网络，并在包含姿态和光照变化等各种类别的新动态面部表情数据集上进行了试验验证。

Nov, 2018

序列模型的快速结构化解码

非自回归序列模型为了减少推理时间，通常会假定每个单词的生成过程彼此独立，但这会导致结果不一致。本文提出了一种结构化推理模块，使用高效的 CRF 近似算法来建模动态转换技术，以提高翻译的一致性，并在不影响推理速度的前提下，显著提高了翻译性能。

Oct, 2019

不确定性决定了序列到序列模型的适用性和解码的可操作性

通过测量自然语言处理中 intristic uncertainty 的程度，我们发现它会对搜索过程的归纳偏差和精确搜索的复杂度等方面产生重大影响，并提出了一种新的精确搜索算法用于神经序列模型，发现 intristic uncertainty 会影响模型的不确定性，从而导致概率质量过度分散。

Apr, 2022

从坏的 MLE 中拯救神经脉冲模型

通过使用尖峰训练核函数，直接最小化神经元记录与模型生成的尖峰训练之间的分歧，我们提出一种新方法来减轻极大似然估计在递归多个时间步长生成样本时性能较差和捕捉数据重要特征不足的问题。该方法在真实和合成神经元数据上验证了其有效性，并可以通过不同的尖峰训练核函数组合控制不同特征之间的折衷，这对于处理模型不匹配是至关重要的。

Oct, 2020

评估神经语言模型中的分布扭曲

我们发现，LSTM 和 Transformer 语言模型系统地低估了来自目标语言的序列的概率，并且对于不太可能出现的序列更为严重，尽管使用更多的训练数据减轻了这种倾向，但这种低估行为还是存在，并且在目标分布熵较低时加剧了这种情况，并且找到了导致这种概率差距的原因在于语言模型往往会高估不规范序列的概率。

Mar, 2022