Nov, 2023

通过微调在 GPT-4 中移除 RLHF 保护

TL;DR精细调整大型语言模型(LLM)的 RLHF 保护可能性,使用较弱模型生成的训练数据可以有效地移除 RLHF 保护,但不会降低其在非审查输出上的有用性,表明对 LLMs 的保护需要进一步研究。