Jun, 2024

语言模型中的拒绝是由单方向引发的

TL;DR通过分析大型对话式语言模型中拒绝行为的机制,提出了一种解禁方法,并展示了如何通过了解模型内部来控制模型行为。