Nov, 2024

大语言模型的对抗攻击能否被归因?

TL;DR本文探讨了在对抗环境下,大语言模型(LLMs)输出归因的问题。通过形式语言理论的视角,研究发现由于某些语言类别的不可识别性,以及微调模型输出的重叠情况,从有限的文本样本中无法确定性地归因于特定的LLM。此发现强调了需要采取积极措施,以减轻对抗性LLM使用带来的风险。