基于真实负例的语言模型预训练
本研究探讨了预训练语言模型在捕捉篇章关系上的能力,并通过探究任务验证了不同架构和层数的 PLMs 的表现,得出了对于不同 NMT 任务在何种情况下使用不同层的 PLMs 是最好的决策。
May, 2023
本文介绍为了解决语言模型 (LMs) 无法满足的逻辑否定性质 (property) 所采用的方法。研究者提出一种名为 Meaning-Matching 的新的任务,用于直接帮助 LM 学习词汇语义信息,进而满足逻辑否定性质 (property)。在七个 GLUE 任务上的微调实验证明了该方法的有效性。
May, 2022
本文提出了一种简单的方法,使用预训练语言模型 (Pretrained language models) 进行全零样本学习 (zero-shot learning) 自然语言理解任务 (NLU tasks)。该方法使用单向和双向 PLMs 生成和训练数据,其中训练数据是使用提示 (prompts) 引导的类别条件文本。使用这种方法,在 GLUE 数据集的七个分类任务中取得了强劲的表现 (例如在 MNLI-m/mm 上的 72.3/73.8,以及在 SST-2 上的 92.8),相对于零样本提示方法,甚至实现了与使用每类 32 个训练样本的强有力的少样本方法相当的结果。同时,采用了标签平滑和时间模型的融合技术以达到更好的泛化和稳定性。
Feb, 2022
使用嘈杂标签,通过引导大型语言模型来提高预训练语言模型(PLM)的微调过程,以区分干净样本和嘈杂样本,并提供嘈杂标签之外的辅助信息,从而增强学习过程。
Nov, 2023
本文探讨了最新的预训练语言模型(PLMs),包括 GPT-3 和 BERT,存在安全漏洞,使其容易受到对抗性攻击的影响,并提出了一种有效的对抗方法来测试模型的语义相似性并减少其分类质量。
Sep, 2022
该研究提出了一种新的语言模型预训练方法,通过估计原始语句与噪声语句之间的复杂度以及修复被破坏的语句对预训练进行优化,实现了自然语言理解和阅读理解方面的效率、效果和鲁棒性的提高。
Oct, 2022
本研究主要探讨了针对领域偏移的细调语言模型进行校准的问题,并提出了一种有效的方法,即在辅助语言建模目标的基础上鼓励细调模型学习生成表示,从而提高其校准度并在三项下游自然语言理解任务中具有良好的表现。
May, 2023
本文提出使用主动遗忘机制作为预训练过程中的一种简单方法,以创建能够快速适应新语言的 PLMs。实验证明,与标准模型相比,在资源匮乏的情况下,使用遗忘机制的预先训练模型不仅在语言适应过程中表现出更快的收敛速度,而且在特别是对于与英语不同的语言来说表现更佳。
Jul, 2023
调查预训练语言模型对恶意言论检测性能的影响,比较不同的预训练模型,评估其鲁棒性及微调设置,并探究预训练数据收集时间的影响。分析结果显示预训练阶段对后期任务有早期的峰值,使用最新的预训练语料库的效益有限,微调阶段会受特定层的影响。对于恶意言论检测,领域特定模型的使用被质疑,并强调需要动态数据集进行评估比较。
Feb, 2024
基于大型语言模型 (LLMs) 的语言理解和生成能力,我们提出了 LLM-Attack,旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异,能够生成通常有效、自然,并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。
Nov, 2023