BriefGPT.xyz
大模型
Ask
alpha
关键词
icl attack
搜索结果 - 1
上下文学习可以重新学习被禁止的任务
通过研究 LLMs 模型的安全训练以及禁止任务的学习,本文探讨了在明确禁止模型回答任务的情况下,是否可以使用上下文学习(ICL)重新学习这些任务。研究结果显示,ICL 可以成功地破坏安全训练,从而带来了重大的安全风险。
PDF
5 months ago
Prev
Next