Jul, 2024

通过惊讶标记的自适应预训练数据检测用于大型语言模型

TL;DR该研究解决了大型语言模型在隐私、安全和版权方面的问题,提出了一种自适应的预训练数据检测方法,降低了对模型逐字记忆能力的依赖。研究发现,该方法通过识别输入中的“惊讶标记”有效提升了检测性能,在各类实验中相比现有方法表现出一致的改进,最高提升达29.5%。