Jun, 2024

评估语言模型的版权下架方法

TL;DR本文介绍了对语言模型版权撤回方法的可行性和副作用的首次评估,并提出了 CoTaEval 评估框架,以评估版权撤回方法的有效性、对模型保留非受版权限制的事实性知识的影响,以及模型在保持整体效用和效率方面的表现。通过添加系统提示、解码时的过滤干预和去学习方法等几种策略的研究,我们的发现表明,在所有指标上没有测试的方法表现出色,这表明在这个独特的问题设置中还有重要的研究空间,并暗示现行政策提议中可能存在未解决的挑战。