Nov, 2023
对防止生成有害信息而言,仅靠对齐是不够的:一个精神分析的视角
Alignment is not sufficient to prevent large language models from generating harmful information: A psychoanalytic perspective
Zi Yin, Wei Ding, Jia Liu
TL;DR我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源,质疑仅仅依赖复杂的对齐方法的有效性,并进一步主张将模态概念与传统的非模态概念相结合,为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。