使用大型语言模型评估摘要的事实一致性
通过零样本策略,本研究提出并评估了三种方式来解决实际的矛盾检测问题,并研究了如何精简高效且功效强大的大型语言模型。实验结果表明,适当设计的范式可以使大型语言模型在无需训练的情况下解决此问题,平均超越强训练基线 2.8%。为了进一步提高实用性,我们提出了训练策略,旨在通过高准确性一次对整个摘要进行评分的方式来精简开源大型语言模型,其效果优于较大的零样本大型语言模型,成为一种有效且高效的可即用得分器。
Feb, 2024
自动产生的摘要与源文件的实际不一致可能导致错误信息或存在风险。现有的实际一致性(FC)指标受性能、效率和可解释性的限制。大型语言模型(LLM)的最新进展在文本评估方面表现出了显著的潜力,但其在总结中评估 FC 的效果尚未充分探索。本文首先通过引入 TreatFact 数据集来填补这一空白,该数据集包含由领域专家进行 FC 注释的 LLM 生成的临床文本摘要。此外,我们在新闻和临床领域对 11 个 LLM 进行了 FC 评估,并分析了模型大小、提示、预训练和微调数据的影响。研究发现,尽管专有模型在任务上占主导地位,但开源 LLM 仍然落后。然而,通过增加模型大小、扩展预训练数据和开发精心策划的微调数据,有潜力提升开源 LLM 的性能。在 TreatFact 上的实验表明,先前的方法和基于 LLM 的评估器都无法捕捉到临床摘要中的实际不一致性,给 FC 评估提出了新的挑战。
Feb, 2024
本文提出了一个新的大语言模型(LLMs)准确性检验基准,称之为 FIB(Factual Inconsistency Benchmark),并在 23 个 1B 到 176B 参数的不同模型家族中评估了其实用性。结果表明,现有的 LLMs 通常将更高的分数分配给事实上一致的总结,但如果不一致的总结在文档中出现,那么 LLMs 将会赋予这些不一致的总结比事实上一致的总结更高的分数。
Nov, 2022
本研究旨在探讨大型语言模型作为可靠的评估器,用于评估文本生成模型生成的摘要的事实一致性,并发现其在事实性评分中的局限性。
Nov, 2023
通过提出新的数据集 SummEdits 来解决现有基准测试中存在的缺点,该数据集比以前的数据集更高效且高度可重复。然而,大多数 LL 模型在 SummEdits 上表现不佳,最好的 GPT-4 模型仍然比人类的表现差 8%,这凸显了 LL 模型在推理和检测事实不一致方面的能力差距。
May, 2023
本文探讨了利用基于事实一致性评估模型的数据过滤和控制生成两种方法来改善跨语言自动摘要的结果,针对语义幻觉生成的问题在提高多语言自动摘要性能方面取得了较好的结果。
Dec, 2022
用于检测大语言模型生成的文本摘要中的事实错误的一种框架,该框架通过使用多样的语言模型提示来识别事实不一致,并将其输出作为二进制特征进入集成模型,从而产生经验性准确的概率来判断文本是否在事实上一致或不含幻想。
Jun, 2024
大型语言模型经常在对开放式主题的事实查询提示进行回答时产生内容错误。为了评估模型在开放领域中的长篇事实可靠性,我们首先使用 GPT-4 生成了一个包含 38000 个问题的长篇事实测试集,然后提出利用 LLM 代理作为长篇事实性的自动化评估器的方法(称为 SAFE),通过将长篇回复分解为一组单个事实,并使用多步推理过程(发送搜索查询到 Google 搜索并确定搜索结果是否支持事实)来评估每个事实的准确性。此外,我们提出将 F1 分数扩展为评估长篇事实性的聚合度量标准,通过将回复中的支持事实的百分比(准确率)与相对于用户首选回复长度的超参数表示的提供事实的百分比(召回率)进行平衡。实证上,我们证明 LLM 代理在超出人类标注者的 16k 个个别事实集上实现了超人类的评级性能 - SAFE 在这些事实中与众包人类标注者的意见达成 72% 的一致,在 100 个不一致案例的随机子集中,SAFE 赢得了 76% 的情况。与此同时,SAFE 比人类标注者便宜多达 20 倍。我们还对长篇事实测试集上的十三个语言模型进行了基准测试,涵盖四个模型系列(Gemini,GPT,Claude 和 PaLM-2),发现较大的语言模型通常可以实现更好的长篇事实性。LongFact,SAFE 和所有实验代码均可在此 https URL 中获取。
Mar, 2024