LLMs对于文本干扰的鲁棒性
我们研究了在现实世界中输入文本可能有噪音或不同于NLP系统训练数据分布的情景,通过各种类型的字符级和单词级扰动方法来模拟这种情况,发现语言模型对输入扰动非常敏感,即使引入了很小的变化,其性能也会下降,需要进一步改进模型并对扰动输入进行评估以更加真实地了解NLP系统的鲁棒性。
Aug, 2021
本研究使用自动化工作流程,对 ChatGPT、LLaMA 和 OPT 等主流 LLM 进行了数百万次查询,得出了 LLM 在稳健性、一致性和可信度方面存在的问题,提出了一种新的关联数据集索引来评估使用 LLM 进行学术评估的可行性。
May, 2023
利用预训练的奖励模型作为诊断工具,我们提出了一种用于评估大规模语言模型的稳健性的新方法,称为奖励模型合理鲁棒性评估(TREvaL)。经过广泛的实证实验,我们发现TREvaL在评估大规模语言模型的稳健性方面提供了一种准确的方法,尤其是在面对更具挑战性的开放性问题时。此外,我们的结果表明,大规模语言模型经常表现出对词级扰动的脆弱性,而这种扰动在日常语言使用中很普遍。令人惊讶的是,我们发现随着进一步的微调(SFT和RLHF)进行,模型的鲁棒性往往会降低。
Sep, 2023
通过对多语种机器翻译模型和大型语言模型在噪声输入情境下的实验研究,我们发现这些模型相比以往模型对各种噪声更加稳健,尤其是在处理干净数据情况下表现相似的情况下。我们还展示了这种趋势在社交媒体翻译实验中同样存在,同时分析了源文本校正技术在减轻噪声影响方面的应用情况。综上所述,我们展示了对于多种类型噪声的稳健性有所增强。
Mar, 2024
通过删除和交换相邻层,我们展示并研究了大型语言模型的显著健壮性,并发现删除和交换方法可以在不进行微调的情况下保留原始模型预测准确性的72-95%,而具有更多层的模型表现出更强的健壮性。基于逐层干预和进一步实验的结果,我们假设了跨8个不同模型的四个普遍推理阶段的存在,即去标记化,特征工程,预测集成和残余调整。第一个阶段将局部信息融合,将原始令牌表示提升为更高级别的上下文表示。接下来是任务和实体特定特征的迭代改进。然后,模型的后半部分开始时进行相位转变,由于专用模型组件,隐藏表示与词汇空间更加一致。最后,最后一层通过消除向预测添加噪音的过时特征来调整后续令牌分布。
Jun, 2024
本文研究了大型语言模型在现实场景中自然语言描述的变化对于代码生成的影响,并提出了一个自动化框架NLPerturbator来对不同类别的描述进行扰动,发现扰动后的描述可以显著降低代码生成的性能。研究强调了提高大型语言模型对于现实场景中描述变化的鲁棒性的重要性,以及构建描述时的细致性。
Jun, 2024