ACLJun, 2024

揭示语言模型中的数据污染谱系:从检测到修复的概述

TL;DR数据污染在大型语言模型 (LLMs) 时代引起了越来越多的关注,由于依赖于广泛来源于互联网的训练语料库。重叠训练语料库与评估基准的问题(称为污染)已成为重要的研究焦点。本文介绍了数据污染领域的综合调查,阐述了关键问题、方法和迄今为止的研究结果,并重点关注需要进一步研究和发展的领域。该调查对数据污染研究的最新进展进行了简明概述,为未来研究提供了清晰的指南。