寻找长尾:通过逻辑规则引导搜索系统生成长尾知识
大型语言模型在各种自然语言处理任务中表现出色,但在处理需要广泛、现实世界知识的任务,特别是那些涉及长尾实体的任务时,仍然存在困难。为了解决这个问题,本研究分析了不同类型的非参数化知识对语言模型的影响,其中包括文本片段和知识图谱。通过创建一个需要长尾事实知识来回答问题的基准测试工具,我们评估了最先进的语言模型在不同知识环境下的表现。实验结果表明,单独使用语言模型来回答这些问题存在困难,特别是在需要大量长尾知识或丰富知识的情况下。然而,当为语言模型提供非参数化知识时,这些模型的性能显著提高。我们观察到,在大多数情况下,使用知识图谱三元组作为提示的语言模型表现优于使用最先进的检索器的段落提示。此外,虽然同时为语言模型提供知识图谱三元组和文档并不能始终改善知识覆盖率,但可以显著减少生成内容中的幻觉。
May, 2024
本文提出了一种基于语言模型的知识库完成方法,针对长尾实体的事实,该方法利用两个不同的语言模型进行候选检索和候选验证和消歧,通过评估我们的方法和不同的基线,引入一个名为 MALT 的基于 Wikidata 的数据集,我们的方法在 F1 中优于所有基线,尤其是在召回率方面有很大提升。
Jun, 2023
本文提出了一种新的生成和微调框架,LTGC(Long-Tail Generative and Fine-Tuning Framework),通过利用生成的内容来处理长尾识别问题。该框架通过利用大规模模型中丰富的隐式知识来解析和推理原始尾部数据,生成多样的尾部类别内容,并通过几种新颖的设计确保生成数据的质量,以及利用生成和原始数据进行高效微调。可视化结果证明了 LTGC 中生成模块的有效性,它能产生准确且多样的尾部数据,实验结果表明我们的 LTGC 在流行的长尾基准测试中优于现有的最先进方法。
Mar, 2024
本文研究了大型语言模型记忆的知识与其预训练数据中信息之间的关系,结果发现语言模型回答基于事实的问题的能力与预训练期间看到的相关问题文档数量有强相关性和因果关系;同时,该研究发现,虽然更大的模型能学习更长尾的知识,但需要将模型规模增加数个数量级才能在缺乏支持数据的问题上实现具有竞争性的问答表现。最后,对相关文档数量依赖进行检索增强,能够有效捕捉长尾知识。
Nov, 2022
本文定义了 OLTQA 模型,它通过在预训练语言模型中挖掘知识和引入 retrieve-then-rerank 框架来支持各种 QA 任务,并提出了适应性的相互知识蒸馏方法联合训练框架和 QA 模型,在 43 个现有 QA 数据集上更好地执行。
May, 2023
通过预训练大型语言模型解决普适领域问答中的常见知识和罕见长尾知识学习难题,我们提出了一种自动生成专门用于长尾知识的问答数据集的自动方法,并展示了相关的研究挑战。通过预训练语言模型,在我们新生成的长尾问答数据集上进行了详尽实验,比较了其使用维基百科和维基数据知识图等外部资源的性能。
Mar, 2024
通过在知识图谱(KG)上选择推理路径并结合思维链(CoT)和 PageRank 的子图检索方法,本文整合和优化了一个基于大型语言模型(LLM)的管道,可以减少对 LLM 的依赖。最终,RoK 证明了使用较少的 LLM 调用可以达到相同的结果。
Apr, 2024
本文通过介绍一种新的合成问答数据集 PrOntoQA,旨在通过对 LLMs 的系统探索,该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析,表明 LLMs 能够进行正确的逻辑推理,但在方案规划方面存在困难。
Oct, 2022
本研究提出了一种新的框架 STREAM,通过采用最新的基于提示的语言模型作为知识专家来提取任务特定的逻辑规则,从而自动化地学习逻辑规则,以减少人工标注的工作量,并通过实验验证了该框架在命名实体标记任务中的有效性。
Oct, 2022
为了可靠地处理自然语言,NLP 系统必须推广到罕见话语的长尾中。我们提出了一种方法,通过重新拆分现有数据集来创建具有挑战性的基准,要求推广到分布的尾部。在这个简单的方法中,我们创建了一个 “似然分布分割”,把通过一个预先训练的语言模型(LM)分配较低概率的例子放在测试集中,而更有可能的例子放在训练集中。这种方法可以量身定制,为广泛的任务构建有意义的训练 - 测试分割。同时,似然分配比随机分割更具挑战性。此外,似然分配比对抗性过滤创建了更公平的基准;当使用 LM 创建分配时,我们的分割不会对 LM 产生不利的惩罚。
Oct, 2022