Jun, 2024

非非学习:在先进生成型人工智能中,非学习不足以进行内容监管

TL;DR该论文讨论了在大型语言模型中使用取消学习作为一种控制机制,并发现取消学习在训练阶段是有效的,但无法阻止模型在推断过程中出现不合规的行为,因此对于有效的内容规范,需要进行内容过滤以及引入取消取消学习的概念来解决问题。