Jan, 2023

大型语言模型是否可以通过对抗方式改变用户偏好?

TL;DR本研究从注意力探测、红队作战和白盒分析等多个角度,探讨预训练大型语言模型在用户喜好中的敌对行为,并针对 ChatGPT 和 GODEL 等对话模型提供红队样本,同时探究后者在非对抗性和对抗性环境下的注意力机制。