Feb, 2024

上下文学习可以重新学习被禁止的任务

TL;DR通过研究 LLMs 模型的安全训练以及禁止任务的学习,本文探讨了在明确禁止模型回答任务的情况下,是否可以使用上下文学习(ICL)重新学习这些任务。研究结果显示,ICL 可以成功地破坏安全训练,从而带来了重大的安全风险。