Jun, 2023

自然语言处理中的分布外鲁棒性再探:基准、分析和 LLMs 评估

TL;DR本文重新审视了自然语言处理领域中关于评估 out-of-distribution 鲁棒性的相关研究,并提出了一个基准套件(BOSS),通过其中包含的 5 项任务和 20 个数据集来评估 pre-trained large language models 和 5 种经典方法在分布转移时的性能,结果发现在 ID 示例中,微调特定领域模型的性能明显优于 LLMs,在 OOD 示例中,优先考虑具有上下文学习的 LLMs 结果更好,但大规模的微调和大型 LLMs 都面临着有效解决下游任务的挑战。