利用大型语言模型和sheaves检测不一致性的前景
本研究针对更新的预训练语言模型(PLMs)在语义一致性方面的问题,提出了一种衡量语义一致性的度量标准,并在TruthfulQA数据集上评估多个PLMs的性能,发现我们提出的语义一致性度量标准比传统的基于词汇一致性的度量标准更可靠,也与人类评估输出一致性的程度更为相关。
Nov, 2022
本文提出了一个新的大语言模型(LLMs)准确性检验基准,称之为FIB(Factual Inconsistency Benchmark),并在23个1B到176B参数的不同模型家族中评估了其实用性。结果表明,现有的LLMs通常将更高的分数分配给事实上一致的总结,但如果不一致的总结在文档中出现,那么LLMs将会赋予这些不一致的总结比事实上一致的总结更高的分数。
Nov, 2022
通过提出新的数据集 SummEdits 来解决现有基准测试中存在的缺点,该数据集比以前的数据集更高效且高度可重复。然而,大多数 LL 模型在 SummEdits 上表现不佳,最好的 GPT-4 模型仍然比人类的表现差8%,这凸显了 LL 模型在推理和检测事实不一致方面的能力差距。
May, 2023
本文提出一种基于物理学的方法,正式定义了文本中五种事实不一致的类型,并依此将一些文章注释为数据集。我们使用这个数据集来训练一个神经模型,以预测在(索赔、上下文)句对中的矛盾类型和矛盾实体类型(当矛盾是由实体引起时)
Jun, 2023
介绍了一种新颖的数据生成方法用于矛盾检测,结合了大型语言模型的生成能力和语言规则,旨在提供一种取得深入语言分析和高效语言模型微调的原型矛盾语料库。
Oct, 2023
本研究比较了经过调整的模型和极大语言模型在可检测可信度主张的任务中的性能。通过使用包含不同来源和风格的文本构建了一个多语种和多主题数据集,并基于此进行了基准分析,确定了最通用的多语种和多主题主张检测器。我们选择了三个最先进的模型进行了可检测可信度主张任务的调整,并选择了三个无需任何调整的最先进极大语言模型。通过对模型进行修改以适应多语种环境,并进行了广泛的实验和评估。在域内和跨域情景中,我们评估了所有模型的准确性、召回率和F1分数。我们的结果表明,尽管在自然语言处理领域取得了技术进步,但针对可检测可信度主张任务的调整模型在跨域设置中仍然优于零样本方法。
Nov, 2023
即使处于最先进状态的大型语言模型在生成对话系统方面显示出了令人印象深刻的能力,但我们展示了它们在道德一致性方面的不一致性,进而质疑它们的可靠性(以及总体的信任度)。
Feb, 2024
本研究针对大型语言模型(LLMs)在法律领域作为知识基础的事实性进行了探讨,填补了对模型答案准确性评估的研究空白。我们设计了一套涵盖案例法和立法的多样化实际问题数据集,并评估了多种模型,结果显示在别名和模糊匹配下模型性能显著提高,额外在法律文档上进行的预训练也将准确率从63%提升至81%。
Sep, 2024
本文解决了大语言模型(LLM)在决策和判断中表现出不一致和偏见行为的问题,强调逻辑一致性对于构建可预测、可靠和可信赖系统的重要性。我们提出了一种通用框架,通过传递性、交换性和否定不变性三个基本代理量化逻辑一致性,并开发了数据精炼和增强技术来优化LLM的逻辑一致性。研究表明,逻辑一致性对基于LLM的逻辑依赖算法的表现有显著影响。
Oct, 2024