Apr, 2024

我们能捉住大象吗?自然语言生成中幻觉评估的演变:综述

TL;DR自然语言生成(NLG)中的幻觉就像房间里的大象,明显却经常被忽视,直到最近取得了显著进展,提高了生成文本的流畅性和语法准确性。对于大型语言模型(LLMs),幻觉可能在各种下游任务和随意对话中发生,需要准确评估以提高可靠性和安全性。然而,目前关于幻觉评估的研究存在很大的差异,人们仍然难以整理和选择最合适的评估方法。此外,随着自然语言处理研究逐渐转向 LLMs 领域,这一问题带来了新的挑战。本文对幻觉评估方法的发展进行了全面调查,旨在解决三个关键方面的问题:1)事实的多样定义和粒度;2)自动评估器的分类及其适用性;3)未解决的问题和未来的方向。