Feb, 2024

新词测试:评估大型语言模型的鲁棒性

TL;DR使用大型语言模型 (LLMs) 对英语新词的研究表明,时间上以及模型训练和推理过程中不断出现的新词引起了数据漂移,对机器翻译等任务的性能造成了巨大影响。基于此,我们构建了一个基准测试来评估 LLMs 对新词的泛化能力和模型困惑度,并发现模型在后面的知识截断日期下获得更低的困惑度并在下游任务中表现更好。