ACLApr, 2024

检索增强的长文生成中的基础性:一项实证研究

TL;DR我们对基于检索增强的大型语言模型在长篇问题回答中的接地性进行了实证研究。研究发现,尽管生成的句子中包含正确的答案,但在 3 个数据集和 4 个模型系列中,存在大量一致性未接地的句子。此外,我们还研究了模型大小、解码策略和指导调优等因素对接地性的影响。结果显示,尽管较大的模型更有效地将输出接地,但仍有相当数量的正确答案受到虚构内容的影响。这项研究为长篇问题回答中的接地性挑战提供了新的见解,并强调了在大型语言模型中采取更鲁棒的机制来减少未接地内容的生成的必要性。