通过语义一致性预测大型语言模型的问答性能

EMNLPNov, 2023

通过语义一致性预测大型语言模型的问答性能

Predicting Question-Answering Performance of Large Language Models through Semantic Consistency

Ella Rabinovich, Samuel Ackerman, Orna Raz, Eitan Farchi, Ateret Anaby-Tavor

TL;DR我们通过手动创建一个高质量的事实问答近义词语料库，并与先前工作中的其他相关度量标准相结合，以评估现代大型语言模型（LLMs）的语义一致性，以构建和评估一个用于事实问答参考无关性能预测的框架 -- 预测语言模型准确回答问题的可能性。通过对五个现代 LLMs 对该框架进行评估，我们展示了令人鼓舞的结果，显著超越了基线水平。

Abstract

semantic consistency of a language model is broadly defined as the model's ability to produce semantically-equivalent outputs, given semantically-equivalent inputs. We address the task of assessing →

semantic consistency language model question-answering benchmark dataset factual qa

发现论文，激发创造

大型语言模型的语义一致性保障

通过引入语义一致性的综合度量和提出的问询策略来提高大型语言模型在开放式文本生成和闭卷问题回答方面的性能。

Aug, 2023

通过语义一致性衡量大型语言模型的可靠性

本研究针对更新的预训练语言模型（PLMs）在语义一致性方面的问题，提出了一种衡量语义一致性的度量标准，并在 TruthfulQA 数据集上评估多个 PLMs 的性能，发现我们提出的语义一致性度量标准比传统的基于词汇一致性的度量标准更可靠，也与人类评估输出一致性的程度更为相关。

Nov, 2022

概念一致性揭示大型语言模型的内部机理

该论文提出了一种概念一致性测量方法，通过从知识库中提取背景知识并尝试预测模型对锚定查询的响应，来测量 LLM 对相关概念的理解程度。研究表明，目前的 LLM 在常识推理方面存在显著差异，并能够向构建具有理解力的人工智能迈进一步。

Sep, 2022

大规模语言模型在歧义下的自一致性

在含糊的整数序列填充任务中，我们在 OpenAI 模型套件上进行了一系列行为实验，发现平均一致性介于 67％和 82％之间，远高于模型一致性随机的预测，并随着模型能力的提高而增加。此外，我们发现模型在自我一致性上具有不良标定性，并且通常倾向于在潜在的答案中分配显著的权重。

Oct, 2023

评估大型语言模型的一致性和推理能力

大型语言模型在学术、研究、商业和金融等领域被广泛应用于文本生成、摘要和翻译等任务，然而，这些模型往往会产生不正确和误导性的信息，主要原因是一致性和推理能力的不足，因此本研究旨在评估和比较公开和专有的大型语言模型的一致性和推理能力，并发现专有模型在一致性和推理能力方面通常优于公开模型，但即使面对基本的常识问题，没有一个模型在一致性和推理能力上都达到 90% 的得分。

Apr, 2024

利用 LLM 提升条件问答

该研究探讨了大型语言模型 (LLMs) 在具有挑战性的条件问答领域中的能力和局限性。利用条件问答 (CQA) 数据集，重点关注 T5 和 UL2 等生成模型，我们评估了 LLMs 在不同问题类型上的性能。研究发现，经过微调的 LLMs 在某些情况下可以超越现有技术在一些方面的表现，即使没有完全编码所有输入上下文，对于是 / 否问题的精确匹配 (EM) 和 F1 分数有 7-8 个点的增加。然而，这些模型在抽取性问答方面遇到了挑战，在与现有技术相比落后于 10 个以上的点，并且在减少注入错误信息的风险方面也存在问题。与神谕检索器进行的一项研究强调了有效证据检索的关键作用，强调了该领域需要先进解决方案的必要性。此外，我们强调了评估评价指标对性能评估的重要影响，并倡导使用更全面的评估框架。任务的复杂性、观察到的性能差异以及在条件问答任务中改进训练任务和探索基于提示的技术以提高 LLMs 性能的未来工作的需求，突显了这一领域面临的持续挑战。

Dec, 2023

强化大型语言模型在工业领域特定问题回答上的表现

本研究提供了一个基于微软产品和技术问题的产业特定 QA 知识的检测基准 MSQA，旨在评估旨在提高 LLM 领域特定能力的方法。此外，我们提出了一种新的模型交互范式，可以使 LLM 在不熟练的领域特定任务上实现更好的性能。实验表明，遵循我们的模型融合框架的方法优于常用的检索方法的 LLM。

May, 2023

大型语言模型是否总能解决简单问题，如果它们能解决更困难的呢？

研究中提出了 ConsisEval 基准，用于量化大型语言模型的一致性，并通过相对一致性得分分析改进一致性的潜力。综合实验结果表明，尽管 GPT-4 的一致性得分最高，但仍然对特定问题存在不一致性，这可能是由于多余信息干扰、对问题的错误解读等因素导致的。而能力更强的模型通常具有更高的一致性，但也存在例外情况，并且硬数据能够提高微调和上下文学习的一致性。

Jun, 2024

构建一致性语言模型的声明式约束

研究介绍如何利用数据管理领域的方法和工具解决大型语言模型返回不一致答案的问题，并提供一些初步的实证研究。

Dec, 2023

评估大型语言模型用于知识图谱上的语义解析对话问答

评估了没有在此任务上进行明确预训练的大型语言模型的性能，并通过一系列实验在广泛的基准数据集上比较了具有不同提示技术和不同大小的模型，并确定了生成输出中的常见问题类型。结果表明，大型语言模型能够从对话中生成图查询，并通过少样本提示和微调技术实现显著提升，特别是对于展现较低零样本性能的较小模型。

Jan, 2024