鉴别式语言模型预训练的实例正则化

EMNLPOct, 2022

鉴别式语言模型预训练的实例正则化

Instance Regularization for Discriminative Language Model Pre-training

Zhuosheng Zhang, Hai Zhao, Ming Zhou

TL;DR该研究提出了一种新的语言模型预训练方法，通过估计原始语句与噪声语句之间的复杂度以及修复被破坏的语句对预训练进行优化，实现了自然语言理解和阅读理解方面的效率、效果和鲁棒性的提高。

Abstract

Discriminative pre-trained language models (PrLMs) can be generalized as denoising auto-encoders that work with two procedures, ennoising and denoising. First, an ennoising process corrupts texts with arbitrary n

language models denoising auto-encoders pre-training natural language understanding reading comprehension

发现论文，激发创造

GanLM: 带有辅助鉴别器的编码器 - 解码器预训练

本文提出了一种名为 GanLM 的基于生成对抗网络（GANs）的编码器 - 解码器预训练模型，利用辨别器和训练目标：替换标记检测和替换标记去噪，有选择地使用去噪数据以提高语言理解和生成能力，在语言生成基准测试中取得了最先进的性能。

Dec, 2022

使用自降噪技术为大型语言模型提供认证的鲁棒性

本文提出了一种新的针对大型语言模型的认证健壮方法，提高了模型的认证健壮性和预测稳定性，比现有认证方法表现更优秀，实验结果表明该方法在经验证健壮性和实证健壮性方面均优于现有认证方法。

Jul, 2023

基于真实负例的语言模型预训练

本文提出基于传统预训练方法的修改方法，以期纠正自动构建样本时可能带来的误伤学习，增强了预训练过程对于真实负样本的学习，实验结果显示该方法可以提高预训练语言模型的性能并增强其健壮性。

Dec, 2022

使用噪声稳定正则化微调预训练语言模型

本文提出了一种名为 LNSR 的 fine-tuning 框架，通过注入高斯噪声或浸入式噪声，对 fine-tuned 模型的隐藏表示进行规范化，以解决预训练语言模型的过拟合问题，并证明其在 question answering task 方面具有优越性。

Jun, 2022

METRO: 面向大规模自编码语言模型的高效去噪预训练，采用模型生成信号

本文提出了一种高效的预训练大规模自动编码语言模型的方法，使用辅助模型生成的训练信号进行预训练策略，使用 METRO 配方结合最佳建模技术，加速、稳定并增强预训练语言模型的效果，产生了 54 亿个参数的 METRO-LM 模型，其在 GLUE、SuperGLUE 和 SQuAD 数据集上取得了新的最优结果，这些模型通常具有比先前大型模型更小的模型大小和更低的预训练成本。

Apr, 2022

大语言模型中的差分隐私解码

本文提出了一种简单易行、计算轻量化的扰动机制，保证了模型的隐私性，在不影响模型实用性的情况下，可应用于所有 LLM 模型，解决了 LLM 在隐私保护与重新训练之间的折中问题。

May, 2022

通过外部引导对预训练语言模型进行噪声抗干扰微调

使用嘈杂标签，通过引导大型语言模型来提高预训练语言模型（PLM）的微调过程，以区分干净样本和嘈杂样本，并提供嘈杂标签之外的辅助信息，从而增强学习过程。

Nov, 2023

大型语言模型在噪声鲁棒性语音识别中的高效学习

通过引入噪声条件器和知识蒸馏方法，我们提出从 N-best 列表中提取语言空间噪声嵌入，以增强噪声鲁棒性和改善识别结果的方法。实验证明该方法在有限的训练数据下，可以获得高达 53.9% 的纠错率改善，表现出强大的语言空间降噪能力。

Jan, 2024

通过自去噪平滑提高大型语言模型的稳健性

大型语言模型 (LLMs) 的漏洞性导致对抗性扰动攻击，而随着模型规模的增加和有限的访问权限，提高模型的鲁棒性变得很困难。我们提出了一种称为自修复平滑的方法，通过利用 LLMs 的多任务性质，首先去噪噪声输入，然后基于这些去噪版本进行预测，以提高模型对噪声数据的鲁棒性。实验结果表明，我们的方法在防御对抗攻击方面超过了现有方法，在下游任务和用户对齐方面都具有较好的鲁棒性。

Apr, 2024

去噪语言模型：将错误修正模型推向语音识别极限

使用大量合成数据进行训练的缩放误差校正模型 (Denoising LM) 在自动语音识别 (ASR) 系统中实现了最先进的性能表现，通过合成语音进入 ASR 系统并与原始文本配对训练，DLM 取得了 1.5% 的单词错误率 (WER) 以及在 Librispeech 上新的 ASR 性能记录，并展示了取代传统语言模型的潜力。

May, 2024