Jun, 2024

做个金鱼,不要死记硬背!减轻生成型 LLMs 中的死记硬背现象

TL;DR通过引入一种名为金鱼损失的微妙修改,我们减轻了大型语言模型记忆和重复其训练数据所带来的隐私和版权风险。我们进行了大规模实验,训练了数十亿规模的 Llama-2 模型,并证明了可提取的记忆量显著减少,同时对下游基准测试的影响几乎没有。