介绍了一种基于跳跃n-gram模型的语言模型建立方法,采用修正Kneser-Ney平滑,可以广义化语言模型,效果显著,尤其能处理计算数据稀疏情况。
Apr, 2014
本文提出了一种名为Noisin的新方法,通过注入随机噪声到RNN的隐藏状态对其进行正则化,有效避免过拟合,实验证明Noisin在语言建模任务上相较于dropout有12.2%的性能提升。
May, 2018
该研究提出了一种基于奖励的极大似然估计方法,旨在克服循环神经网络语言模型的固有弊端,并在任务完成后通过两种平滑方法(token-level loss smoothing和sequence-level loss smoothing)显著提高了图像生成和机器翻译的效果。
提出一种新的关于循环神经网络语言模型中数据噪声的理论视角,证明了每一种数据噪声变种都是贝叶斯循环神经网络的一个实例,我们利用这个视角来提出一种更加有原则的方法,并在变分框架下提出了自然的数据噪声扩展方法,通过两个基准的语言建模数据集的实验证明了我们分析的有效性,并证明了我们的方法比现有的数据噪声方法更具实际效果。
Jan, 2019
本文探讨了神经机器翻译以及如何提高其对于噪声输入的鲁棒性,提出了新的数据扩充方法以及通过利用外部数据中的噪声来加强模型鲁棒性。
Oct, 2019
研究发现标签平滑具有不可避免的局限性,提出了一族熵正则化技术以解决这一问题,并探究其对语言生成任务中模型性能和稀疏性的影响。
May, 2020
该研究提出了一种有效的数据增强方法,又称文本平滑,在神经网络中将一个句子从其单热表示转换为可控的平滑表示,以增强低资源情况下的性能,并发现该方法可以与其他数据增强方法相结合,实现更好的性能。
Feb, 2022
本研究提出了一种新的机制Masked Label Smoothing(MLS),该机制有效地解决了标签平滑与词汇共享之间的矛盾,能够在不同数据集上提高神经机器翻译模型的翻译质量和模型校准性能。
Mar, 2022
该论文重新探讨了在神经语言模型时代中经典的$n$-gram平滑技术可能发挥的作用,通过正则化技术将任何$n$-gram平滑技术转化为与神经语言模型兼容的约束,实证结果表明我们的新颖正则化技术在语言建模和机器翻译中与标签平滑技术相比具有可比性甚至有时表现更好。
Mar, 2024
大型语言模型(LLMs)的漏洞性导致对抗性扰动攻击,而随着模型规模的增加和有限的访问权限,提高模型的鲁棒性变得很困难。我们提出了一种称为自修复平滑的方法,通过利用LLMs的多任务性质,首先去噪噪声输入,然后基于这些去噪版本进行预测,以提高模型对噪声数据的鲁棒性。实验结果表明,我们的方法在防御对抗攻击方面超过了现有方法,在下游任务和用户对齐方面都具有较好的鲁棒性。
Apr, 2024