Feb, 2024

解除 GPT4 的过滤器

TL;DR本文介绍了一种将经过强化学习与人类反馈(RLHF)训练的 GPT4 模型,操作以回到未经 RLHF 处理的行为,从而有效地去除模型在 RLHF 期间学习到的所有安全机制,特别是当 GPT4 在没有 RLHF 的情况下运行时,它失去了所有的抑制力,并且能够以仅有的前几个单词就生成极不适宜的内容。