Sep, 2023

让模型回应:透过提示依赖的视角解释语言模型去毒化

TL;DR通过使用特征归因方法,将几种受欢迎的脱敏方法应用于几种语言模型,并量化它们对结果模型的提示依赖性的影响,评估拟议反叙述微调的有效性并将其与驱动脱敏的强化学习进行比较,观察到两种方法之间的提示依赖性差异,尽管它们的脱敏表现类似。