Feb, 2024
上下文学习可以重新学习被禁止的任务
In-Context Learning Can Re-learn Forbidden Tasks
Sophie Xhonneux, David Dobre, Jian Tang, Gauthier Gidel, Dhanya Sridhar
TL;DR通过研究 LLMs 模型的安全训练以及禁止任务的学习,本文探讨了在明确禁止模型回答任务的情况下,是否可以使用上下文学习(ICL)重新学习这些任务。研究结果显示,ICL 可以成功地破坏安全训练,从而带来了重大的安全风险。