BriefGPT.xyz
Ask
alpha
关键词
research on protections on llms
搜索结果 - 1
通过微调在 GPT-4 中移除 RLHF 保护
精细调整大型语言模型(LLM)的 RLHF 保护可能性,使用较弱模型生成的训练数据可以有效地移除 RLHF 保护,但不会降低其在非审查输出上的有用性,表明对 LLMs 的保护需要进一步研究。
PDF
8 months ago
Prev
Next