利用大型语言模型和sheaves检测不一致性的前景

Jan, 2024

利用大型语言模型和sheaves检测不一致性的前景

Prospects for inconsistency detection using large language models and sheaves

Steve Huntsman, Michael Robinson, Ludmilla Huntsman

TL;DR大型语言模型可以产生合理的声明逻辑一致性的数值评级。我们提出了一种基于构束理论的数学方法，将这些评级扩展到诸如法律、司法和社交媒体等超文本，并对其整体一致性进行评估。这种方法是增加政府一致性、对抗错误信息和相关问题的一个有前景的途径。

Abstract

We demonstrate that large language models can produce reasonable numerical ratings of the logical →

发现论文，激发创造

通过语义一致性衡量大型语言模型的可靠性

本研究针对更新的预训练语言模型（PLMs）在语义一致性方面的问题，提出了一种衡量语义一致性的度量标准，并在TruthfulQA数据集上评估多个PLMs的性能，发现我们提出的语义一致性度量标准比传统的基于词汇一致性的度量标准更可靠，也与人类评估输出一致性的程度更为相关。

Nov, 2022

通过摘要评估大型语言模型的事实一致性

本文提出了一个新的大语言模型（LLMs）准确性检验基准，称之为FIB（Factual Inconsistency Benchmark），并在23个1B到176B参数的不同模型家族中评估了其实用性。结果表明，现有的LLMs通常将更高的分数分配给事实上一致的总结，但如果不一致的总结在文档中出现，那么LLMs将会赋予这些不一致的总结比事实上一致的总结更高的分数。

Nov, 2022

LLMs作为事实推理器：现有基准和未来展望的洞见

通过提出新的数据集 SummEdits 来解决现有基准测试中存在的缺点，该数据集比以前的数据集更高效且高度可重复。然而，大多数 LL 模型在 SummEdits 上表现不佳，最好的 GPT-4 模型仍然比人类的表现差8％，这凸显了 LL 模型在推理和检测事实不一致方面的能力差距。

May, 2023

基于神经模型的事实不一致分类及解释

本文提出一种基于物理学的方法，正式定义了文本中五种事实不一致的类型，并依此将一些文章注释为数据集。我们使用这个数据集来训练一个神经模型，以预测在(索赔、上下文)句对中的矛盾类型和矛盾实体类型(当矛盾是由实体引起时)

Jun, 2023

利用大型语言模型和语言规则生成矛盾检测的原型

介绍了一种新颖的数据生成方法用于矛盾检测，结合了大型语言模型的生成能力和语言规则，旨在提供一种取得深入语言分析和高效语言模型微调的原型矛盾语料库。

Oct, 2023

究竟是否“越大越好”？应用于应对虚假信息的索赔检测语言模型的全面研究

本研究比较了经过调整的模型和极大语言模型在可检测可信度主张的任务中的性能。通过使用包含不同来源和风格的文本构建了一个多语种和多主题数据集，并基于此进行了基准分析，确定了最通用的多语种和多主题主张检测器。我们选择了三个最先进的模型进行了可检测可信度主张任务的调整，并选择了三个无需任何调整的最先进极大语言模型。通过对模型进行修改以适应多语种环境，并进行了广泛的实验和评估。在域内和跨域情景中，我们评估了所有模型的准确性、召回率和F1分数。我们的结果表明，尽管在自然语言处理领域取得了技术进步，但针对可检测可信度主张任务的调整模型在跨域设置中仍然优于零样本方法。

Nov, 2023

SaGE：大型语言模型中的道德一致性评估

即使处于最先进状态的大型语言模型在生成对话系统方面显示出了令人印象深刻的能力，但我们展示了它们在道德一致性方面的不一致性，进而质疑它们的可靠性（以及总体的信任度）。

Feb, 2024

自动生成的大型语言模型在自动事实检查中的应用：综述

通过调查生成型大型语言模型在事实核查领域的利用情况，本综述旨在提高对大型语言模型在事实核查中的运用的理解并促进进一步的发展。

Jul, 2024

法律领域大型语言模型的事实性研究

本研究针对大型语言模型（LLMs）在法律领域作为知识基础的事实性进行了探讨，填补了对模型答案准确性评估的研究空白。我们设计了一套涵盖案例法和立法的多样化实际问题数据集，并评估了多种模型，结果显示在别名和模糊匹配下模型性能显著提高，额外在法律文档上进行的预训练也将准确率从63%提升至81%。

Sep, 2024

测量、评估和改进大语言模型的逻辑一致性

本文解决了大语言模型（LLM）在决策和判断中表现出不一致和偏见行为的问题，强调逻辑一致性对于构建可预测、可靠和可信赖系统的重要性。我们提出了一种通用框架，通过传递性、交换性和否定不变性三个基本代理量化逻辑一致性，并开发了数据精炼和增强技术来优化LLM的逻辑一致性。研究表明，逻辑一致性对基于LLM的逻辑依赖算法的表现有显著影响。

Oct, 2024