Oct, 2023

通过可转移的对抗性攻击实现对齐大型语言模型的自动幻觉评估

TL;DR大型语言模型 (LLM) 中的幻觉问题已取得显著进展,但如何评估 LLMs 的可靠性仍然具有挑战性。本文通过生成评估数据的方法对现有数据进行适当修改,以使用 AutoDebug 框架生成可转移的对抗攻击示例,并研究这些示例触发 LLMs 幻觉行为的程度。实验结果表明,LLMs 在两类问答场景中易产生幻觉,并且我们的方法生成的对抗示例在所有考虑到的 LLMs 之间可转移。