基于大型语言模型的事实对话摘要
通过零样本策略,本研究提出并评估了三种方式来解决实际的矛盾检测问题,并研究了如何精简高效且功效强大的大型语言模型。实验结果表明,适当设计的范式可以使大型语言模型在无需训练的情况下解决此问题,平均超越强训练基线 2.8%。为了进一步提高实用性,我们提出了训练策略,旨在通过高准确性一次对整个摘要进行评分的方式来精简开源大型语言模型,其效果优于较大的零样本大型语言模型,成为一种有效且高效的可即用得分器。
Feb, 2024
本研究探索采用大型语言模型 (DLM) 来评估摘要的事实一致性,并通过对 GPT 模型系列和 Flan-T5 等不同类型的 DLM 进行分析,以及对多种提示方法进行研究,最终证明了直接针对 DLM 的提示方法在各项测试中均优于当前最先进的摘要事实性系统。
May, 2023
自动产生的摘要与源文件的实际不一致可能导致错误信息或存在风险。现有的实际一致性(FC)指标受性能、效率和可解释性的限制。大型语言模型(LLM)的最新进展在文本评估方面表现出了显著的潜力,但其在总结中评估 FC 的效果尚未充分探索。本文首先通过引入 TreatFact 数据集来填补这一空白,该数据集包含由领域专家进行 FC 注释的 LLM 生成的临床文本摘要。此外,我们在新闻和临床领域对 11 个 LLM 进行了 FC 评估,并分析了模型大小、提示、预训练和微调数据的影响。研究发现,尽管专有模型在任务上占主导地位,但开源 LLM 仍然落后。然而,通过增加模型大小、扩展预训练数据和开发精心策划的微调数据,有潜力提升开源 LLM 的性能。在 TreatFact 上的实验表明,先前的方法和基于 LLM 的评估器都无法捕捉到临床摘要中的实际不一致性,给 FC 评估提出了新的挑战。
Feb, 2024
本文探讨了利用基于事实一致性评估模型的数据过滤和控制生成两种方法来改善跨语言自动摘要的结果,针对语义幻觉生成的问题在提高多语言自动摘要性能方面取得了较好的结果。
Dec, 2022
本文中,我们对自然语言生成功能的输出质量提出问题,通过收集人类演示和信息反馈数据集 DeFacto,我们进行了两项自然语言生成任务的研究,旨在通过实现信息反馈来提高自然语言生成模型的质量,改善与用户需求的匹配度。
Dec, 2022
PLMs 基于知识驱动的对话系统存在生成与提供的知识源不一致的回应问题,本文通过知识增强和对齐两种方法有效提升了前馈网络(FFNs)在回应中表达事实知识的能力,验证了提升知识驱动对话系统的事实一致性的有效性。
Oct, 2023
本文提出了一个新的大语言模型(LLMs)准确性检验基准,称之为 FIB(Factual Inconsistency Benchmark),并在 23 个 1B 到 176B 参数的不同模型家族中评估了其实用性。结果表明,现有的 LLMs 通常将更高的分数分配给事实上一致的总结,但如果不一致的总结在文档中出现,那么 LLMs 将会赋予这些不一致的总结比事实上一致的总结更高的分数。
Nov, 2022
通过分析对知识冲突的鲁棒性,本文研究了基于微调的抽象概括模型,发现并引入了一种可控的反事实数据增广方法来增强事实适应性,并在两种预训练语言模型(PEGASUS 和 BART)以及两个微调数据集(XSum 和 CNN/DailyMail)上实验证明,该方法在实现原始数据集上的事实一致性的同时提高了事实适应性。
Feb, 2024
通过利用外部知识库的一致性或大模型的置信度,以及直接优化算法,我们在不需要人工标注的情况下,对语言模型进行微调,明显提高了生成候选项的正确性,并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。
Nov, 2023