Jan, 2024

大型语言模型中的过度臃肿导航

TL;DR通过探索大型语言模型处理和确定查询的安全性的方式以及对有害单词的过度关注的因素,本研究发现模型内部存在着捷径,强调安全性的提示将加剧过度关注有害单词,并介绍了一种名为 Self-Contrastive Decoding (Self-CD) 的训练无关且模型不可知的策略来缓解这一现象,实证结果表明我们的方法平均拒绝率减少了 20%,对安全性几乎没有影响。