Jun, 2024

基于策略的细粒度知识反馈用于幻觉缓解

TL;DR在这篇论文中,我们介绍了一种基于在线强化学习的细粒度反馈方法(RLFH)来减轻大型语言模型在生成过程中产生的幻觉行为。通过将大模型的结果分解为原子事实,并提供语句级评估信号,RLFH 能够探索其内部知识的边界,并提供关于这些探索的在线、细粒度反馈。为了进行可靠的生成行为学习,RLFH 采用在线强化算法根据这些基于标记的奖励调整模型行为,以减轻幻觉现象。RLFH 还引入了一种基于大型语言模型的事实评估框架,可以在不需要人工干预的情况下验证原子事实的真实性和有用性。在 HotpotQA、SQuADv2 和传记基准测试上的实验显示,RLFH 可以平衡大型语言模型在生成过程中使用内部知识的程度,从而消除了幻觉行为。