一致性至关重要：从黑盒角度探索 LLMs 的一致性

Feb, 2024

一致性至关重要：从黑盒角度探索 LLMs 的一致性

Consistency Matters: Explore LLMs Consistency From a Black-Box Perspective

Fufangchen Zhao, Guoqiang Jin, Jiaheng Huang, Rui Zhao, Fei Tan

TL;DR我们通过构建 LLM 一致性任务数据集和设计多个基准模型，使用传统的自然语言生成度量标准（即 ROUGE，BLEU，METEOR）作为模型训练所需的特征，在主要实验中超越了人工评估、GPT3.5 以及其他模型，取得了最佳性能，最终利用最佳表现的 LightGBM 模型构建了评估工具，可以有效地帮助业务模型的部署。

Abstract

Nowadays both commercial and open-source academic llm have become the mainstream models of NLP. However, there is still a lack of research on llm

llm consistency dataset baselines evaluation tool

发现论文，激发创造

关于 LLMs 的隐含风险评估：关于鲁棒性，一致性和可信度的实证研究

本研究使用自动化工作流程，对 ChatGPT、LLaMA 和 OPT 等主流 LLM 进行了数百万次查询，得出了 LLM 在稳健性、一致性和可信度方面存在的问题，提出了一种新的关联数据集索引来评估使用 LLM 进行学术评估的可行性。

May, 2023

大型语言模型是否总能解决简单问题，如果它们能解决更困难的呢？

研究中提出了 ConsisEval 基准，用于量化大型语言模型的一致性，并通过相对一致性得分分析改进一致性的潜力。综合实验结果表明，尽管 GPT-4 的一致性得分最高，但仍然对特定问题存在不一致性，这可能是由于多余信息干扰、对问题的错误解读等因素导致的。而能力更强的模型通常具有更高的一致性，但也存在例外情况，并且硬数据能够提高微调和上下文学习的一致性。

Jun, 2024

大型语言模型中知识基础的跨语言不一致性评估

这篇论文研究了大型语言模型（LLMs）中存在的跨语言的不一致性，并通过创新的评估方法和指标，综合评估了模型在语义、准确性和及时性方面的一致性，以提升对多语言能力和可解释性的理解和改进，为更强大和可靠的多语言模型的开发做出贡献。

Jul, 2024

大型语言模型的语义一致性保障

通过引入语义一致性的综合度量和提出的问询策略来提高大型语言模型在开放式文本生成和闭卷问题回答方面的性能。

Aug, 2023

法律领域中常见文本分类方法的基于能量的比较分析

该论文通过详细的定量比较大型语言模型和传统方法在性能、时间、能耗和成本等方面的表现，发现简单算法往往能够在性能接近的情况下以较低的能耗和资源需求获得结果，从而建议企业在选择机器学习方案时进行额外评估。

Nov, 2023

LLMs 作为事实推理器：现有基准和未来展望的洞见

通过提出新的数据集 SummEdits 来解决现有基准测试中存在的缺点，该数据集比以前的数据集更高效且高度可重复。然而，大多数 LL 模型在 SummEdits 上表现不佳，最好的 GPT-4 模型仍然比人类的表现差 8％，这凸显了 LL 模型在推理和检测事实不一致方面的能力差距。

May, 2023

评估大型语言模型的一致性和推理能力

大型语言模型在学术、研究、商业和金融等领域被广泛应用于文本生成、摘要和翻译等任务，然而，这些模型往往会产生不正确和误导性的信息，主要原因是一致性和推理能力的不足，因此本研究旨在评估和比较公开和专有的大型语言模型的一致性和推理能力，并发现专有模型在一致性和推理能力方面通常优于公开模型，但即使面对基本的常识问题，没有一个模型在一致性和推理能力上都达到 90% 的得分。

Apr, 2024

通过辩论深入探究大型语言模型的内部一致性

在人工智能的领域中，大型语言模型（LLMs）需求渐趋增长。本研究通过命题竞辩框架来探讨多个 LLMs 之间的持续性以及一致性问题，确立了公正比赛，失调比赛和圆桌比赛的三个阶段，并在多个常识推理数据集上进行了广泛的实验，从而提出了令人信服的解决方案

May, 2023

大型语言模型在价值问题上是否具有一致性？

大型语言模型似乎会在调查回答中表现出某种偏见，但有些人认为它们不够一致，无法模拟特定的价值观。为了回答这个问题，我们首先将价值一致性定义为（1）同一个问题的释义，（2）同一个主题下的相关问题，（3）单个问题的多项选择和开放性用例，以及（4）将问题翻译成英文、中文、德文和日文。我们将这些测量方法应用于几个大型（>=34b）的开源 LLM，包括 llama-3 和 gpt-4o，使用超过 300 个主题、八千个问题的数据。与之前的研究不同，我们发现模型在释义、用例、翻译和主题上相对一致。然而，仍然存在一些不一致之处。相对于微调模型，基础模型在一致性方面更加一致，并且在不同主题上保持一致，而微调模型在某些主题（如 “安乐死”）上的一致性较差，而在其他主题（如 “妇女权益”）上的一致性与人类研究对象（n=165）相似。

Jul, 2024

概念一致性揭示大型语言模型的内部机理

该论文提出了一种概念一致性测量方法，通过从知识库中提取背景知识并尝试预测模型对锚定查询的响应，来测量 LLM 对相关概念的理解程度。研究表明，目前的 LLM 在常识推理方面存在显著差异，并能够向构建具有理解力的人工智能迈进一步。

Sep, 2022