Aug, 2024

大语言模型解除学习的潜在表征引导效应

TL;DR本研究针对大语言模型解除学习中存在的表征误导问题,提出了通过引导中间层表征来实现有效解除学习的方法。研究表明,引导表征能够降低生成的响应信心,从而导致错误结果。此外,提出的自适应表征引导方法在不同网络层上显著提高了解除学习的效果,且没有额外的计算成本。