Sep, 2023

语言模型激活修复的最佳实践:度量与方法

TL;DR我们系统地研究了激活补丁技术的方法学细节,包括评估指标和数据污染方法,并发现这些超参数的变化可能导致差异化的解释结果。根据经验观察,我们提出了为什么应该优先选择某些指标或方法的概念性论证,并最终对激活补丁技术提供了最佳实践建议。