本文提出了一种名为 GanLM 的基于生成对抗网络(GANs)的编码器 - 解码器预训练模型,利用辨别器和训练目标:替换标记检测和替换标记去噪,有选择地使用去噪数据以提高语言理解和生成能力,在语言生成基准测试中取得了最先进的性能。
Dec, 2022
本文提出了一种新的针对大型语言模型的认证健壮方法,提高了模型的认证健壮性和预测稳定性,比现有认证方法表现更优秀,实验结果表明该方法在经验证健壮性和实证健壮性方面均优于现有认证方法。
Jul, 2023
本文提出基于传统预训练方法的修改方法,以期纠正自动构建样本时可能带来的误伤学习,增强了预训练过程对于真实负样本的学习,实验结果显示该方法可以提高预训练语言模型的性能并增强其健壮性。
本文提出了一种名为 LNSR 的 fine-tuning 框架,通过注入高斯噪声或浸入式噪声,对 fine-tuned 模型的隐藏表示进行规范化,以解决预训练语言模型的过拟合问题,并证明其在 question answering task 方面具有优越性。
Jun, 2022
本文提出了一种高效的预训练大规模自动编码语言模型的方法,使用辅助模型生成的训练信号进行预训练策略,使用 METRO 配方结合最佳建模技术,加速、稳定并增强预训练语言模型的效果,产生了 54 亿个参数的 METRO-LM 模型,其在 GLUE、SuperGLUE 和 SQuAD 数据集上取得了新的最优结果,这些模型通常具有比先前大型模型更小的模型大小和更低的预训练成本。
Apr, 2022
本文提出了一种简单易行、计算轻量化的扰动机制,保证了模型的隐私性,在不影响模型实用性的情况下,可应用于所有 LLM 模型,解决了 LLM 在隐私保护与重新训练之间的折中问题。
May, 2022
使用嘈杂标签,通过引导大型语言模型来提高预训练语言模型(PLM)的微调过程,以区分干净样本和嘈杂样本,并提供嘈杂标签之外的辅助信息,从而增强学习过程。
Nov, 2023
通过引入噪声条件器和知识蒸馏方法,我们提出从 N-best 列表中提取语言空间噪声嵌入,以增强噪声鲁棒性和改善识别结果的方法。实验证明该方法在有限的训练数据下,可以获得高达 53.9% 的纠错率改善,表现出强大的语言空间降噪能力。
Jan, 2024
大型语言模型 (LLMs) 的漏洞性导致对抗性扰动攻击,而随着模型规模的增加和有限的访问权限,提高模型的鲁棒性变得很困难。我们提出了一种称为自修复平滑的方法,通过利用 LLMs 的多任务性质,首先去噪噪声输入,然后基于这些去噪版本进行预测,以提高模型对噪声数据的鲁棒性。实验结果表明,我们的方法在防御对抗攻击方面超过了现有方法,在下游任务和用户对齐方面都具有较好的鲁棒性。
Apr, 2024
使用大量合成数据进行训练的缩放误差校正模型 (Denoising LM) 在自动语音识别 (ASR) 系统中实现了最先进的性能表现,通过合成语音进入 ASR 系统并与原始文本配对训练,DLM 取得了 1.5% 的单词错误率 (WER) 以及在 Librispeech 上新的 ASR 性能记录,并展示了取代传统语言模型的潜力。
May, 2024