通过动态知识选择优化文本生成的事实准确性
通过使用独立验证器处理语言模型的输出和知识,本研究提出了一种验证方法,以解决语言模型在生成文本时可能存在的错误。结果表明,该验证器可以有效地识别检索和生成错误,使语言模型能够提供更准确的结果。
Oct, 2023
通过利用知识图谱 (KGs) 来系统评估大型语言模型 (LLMs) 的事实知识,本文提出了一个框架。我们的框架通过从给定 KG 中存储的事实自动生成一组问题和预期答案,然后评估 LLMs 回答这些问题的准确性。我们在通用和特定领域系统评估了最先进的 LLMs,实验证明 ChatGPT 在所有领域中始终是最佳表现者。我们还发现 LLMs 的表现取决于指导微调、领域和问题的复杂性,并且容易受到对抗性环境的影响。
Oct, 2023
本研究针对大规模预训练的语言模型,设计测试集和度量标准以提高生成文本的事实准确性,提出了基于主题前缀和句子补全的事实增强训练方法,并提出了更适合提高准确性的采样算法。
Jun, 2022
该研究提出了一个基于自然语言的控制生成任务,可将一系列事实扩展为更长的叙述,并通过引入人类评估指标和大型训练数据集的方法评估了三种方法,证明了自回归的单向语言模型如 GPT2 的生成流畅度更好,但很难遵循所请求的事实,提出了一个基于计划和填空模型的解决方案(使用精细调整的 XLNet),其生成流畅度有竞争力,同时遵循所请求的内容。
Dec, 2020
通过 CONNER 对大型语言模型在知识密集型任务中生成的知识进行综合评估,发现事实性的小错误并不会显著影响下游任务,因此相关性和连贯性比事实性更为重要。此外,研究还提出了通过 Prompt Engineering 和 Knowledge Selection 来改进知识密集型任务的方法。
Oct, 2023
大型语言模型在各种自然语言处理任务中表现出色,但在处理需要广泛、现实世界知识的任务,特别是那些涉及长尾实体的任务时,仍然存在困难。为了解决这个问题,本研究分析了不同类型的非参数化知识对语言模型的影响,其中包括文本片段和知识图谱。通过创建一个需要长尾事实知识来回答问题的基准测试工具,我们评估了最先进的语言模型在不同知识环境下的表现。实验结果表明,单独使用语言模型来回答这些问题存在困难,特别是在需要大量长尾知识或丰富知识的情况下。然而,当为语言模型提供非参数化知识时,这些模型的性能显著提高。我们观察到,在大多数情况下,使用知识图谱三元组作为提示的语言模型表现优于使用最先进的检索器的段落提示。此外,虽然同时为语言模型提供知识图谱三元组和文档并不能始终改善知识覆盖率,但可以显著减少生成内容中的幻觉。
May, 2024
通过使用大规模语言模型(LLMs),我们提出了一种名为 EKRG 的新型检索 - 生成框架,以极低的注释成本实现了企业知识库的问答。通过独特的指令调优方法和针对连贯性思维的微调方法,我们的框架在真实世界数据集上进行了广泛实验,并取得了显著的有效性。
Apr, 2024
本文提出了一种生成式方法,名为 GenKS,用于在基于对话历史的语境下选择适当的知识片段,该方法通过序列到序列模型生成标识符来选择片段,捕捉片段之间的内部知识交互,并通过超链接机制显式地建模对话 - 知识交互,同时在三个基准数据集上进行实验并证明 GenKS 在知识选择和响应生成方面取得了最佳结果。
Apr, 2023
文章提出了一种新的事实评估方法 FactKB,该方法使用基于预先抽取的实体知识的语言模型,以达到跨领域的通用性并解决现有模型在新领域中存在的实体和关系错误问题。通过在两个领域内的新闻汇总测试数据和三个跨领域的科学文献数据上测试,FactKB 的事实性评估模型达到了最先进的性能水平,并表现出在摘要中检测错误实体和关系的能力显著提高,从而进一步证明其在领域通用性和鲁棒性方面的特点。
May, 2023