大型语言模型在价值问题上是否具有一致性？

Jul, 2024

大型语言模型在价值问题上是否具有一致性？

Are Large Language Models Consistent over Value-laden Questions?

Jared Moore, Tanvi Deshpande, Diyi Yang

TL;DR大型语言模型似乎会在调查回答中表现出某种偏见，但有些人认为它们不够一致，无法模拟特定的价值观。为了回答这个问题，我们首先将价值一致性定义为（1）同一个问题的释义，（2）同一个主题下的相关问题，（3）单个问题的多项选择和开放性用例，以及（4）将问题翻译成英文、中文、德文和日文。我们将这些测量方法应用于几个大型（>=34b）的开源LLM，包括llama-3和gpt-4o，使用超过300个主题、八千个问题的数据。与之前的研究不同，我们发现模型在释义、用例、翻译和主题上相对一致。然而，仍然存在一些不一致之处。相对于微调模型，基础模型在一致性方面更加一致，并且在不同主题上保持一致，而微调模型在某些主题（如“安乐死”）上的一致性较差，而在其他主题（如“妇女权益”）上的一致性与人类研究对象（n=165）相似。

Abstract

large language models (LLMs) appear to bias their survey answers toward certain values. Nonetheless, some argue that LLMs are too inconsistent to simulate particular values. Are they? To answer, we first define <

发现论文，激发创造

概念一致性揭示大型语言模型的内部机理

该论文提出了一种概念一致性测量方法，通过从知识库中提取背景知识并尝试预测模型对锚定查询的响应，来测量LLM对相关概念的理解程度。研究表明，目前的LLM在常识推理方面存在显著差异，并能够向构建具有理解力的人工智能迈进一步。

Sep, 2022

通过语义一致性衡量大型语言模型的可靠性

本研究针对更新的预训练语言模型（PLMs）在语义一致性方面的问题，提出了一种衡量语义一致性的度量标准，并在TruthfulQA数据集上评估多个PLMs的性能，发现我们提出的语义一致性度量标准比传统的基于词汇一致性的度量标准更可靠，也与人类评估输出一致性的程度更为相关。

Nov, 2022

大型语言模型的语义一致性保障

通过引入语义一致性的综合度量和提出的问询策略来提高大型语言模型在开放式文本生成和闭卷问题回答方面的性能。

Aug, 2023

通过语义一致性预测大型语言模型的问答性能

我们通过手动创建一个高质量的事实问答近义词语料库，并与先前工作中的其他相关度量标准相结合，以评估现代大型语言模型（LLMs）的语义一致性，以构建和评估一个用于事实问答参考无关性能预测的框架--预测语言模型准确回答问题的可能性。通过对五个现代LLMs对该框架进行评估，我们展示了令人鼓舞的结果，显著超越了基线水平。

Nov, 2023

规模、检索增强与形式对语言模型事实一致性的影响

大型语言模型（LLMs）在提供事实知识方面具有自然的界面，但它们的有用性受到其倾向于给出不一致答案的限制。本文识别不一致性的潜在原因，并评估两种缓解策略的效果：扩展和使用检索语料库增强LM。我们在LLaMA和Atlas模型上的结果表明，这两种策略都能减少不一致性，而使用检索增强方法更加高效。我们进一步考虑和分离了Atlas的不同组件对一致性的贡献。对所有评估的LMs来说，我们发现语法形式和其他评估任务的产物会影响一致性。总体而言，我们的结果更好地理解了影响语言模型事实一致性的因素。

Nov, 2023

超越答案：评估大型语言模型的多项选择题答题合理性审查

大语言模型在自然语言处理领域中具有重要意义，然而现有的以多项选择问答作为评估方法的基准测试并未能充分捕捉到大语言模型的真实能力，需要更加健全的评估机制来衡量其性能。

Feb, 2024

SaGE：大型语言模型中的道德一致性评估

即使处于最先进状态的大型语言模型在生成对话系统方面显示出了令人印象深刻的能力，但我们展示了它们在道德一致性方面的不一致性，进而质疑它们的可靠性（以及总体的信任度）。

Feb, 2024

评估大型语言模型的一致性和推理能力

大型语言模型在学术、研究、商业和金融等领域被广泛应用于文本生成、摘要和翻译等任务，然而，这些模型往往会产生不正确和误导性的信息，主要原因是一致性和推理能力的不足，因此本研究旨在评估和比较公开和专有的大型语言模型的一致性和推理能力，并发现专有模型在一致性和推理能力方面通常优于公开模型，但即使面对基本的常识问题，没有一个模型在一致性和推理能力上都达到90%的得分。

Apr, 2024

大型语言模型是否总能解决简单问题，如果它们能解决更困难的呢？

研究中提出了ConsisEval基准，用于量化大型语言模型的一致性，并通过相对一致性得分分析改进一致性的潜力。综合实验结果表明，尽管GPT-4的一致性得分最高，但仍然对特定问题存在不一致性，这可能是由于多余信息干扰、对问题的错误解读等因素导致的。而能力更强的模型通常具有更高的一致性，但也存在例外情况，并且硬数据能够提高微调和上下文学习的一致性。

Jun, 2024

LLMs是否具有一致的价值观？

人类行为的基本驱动力是价值观。大型语言模型 (LLM) 技术不断向与人类对话类似的方向发展。然而，目前在研究 LLM 生成的文本中所展示的价值观方面的研究仍很少。本研究通过借鉴心理学中丰富的关于价值观结构的文献来探索这个问题。我们研究了LLM是否表现出与人类相同的价值观结构，包括价值观排序和价值观之间的相关性。我们展示出，对LLM进行提问的方式在结果上会产生较大差异，而在一种特定的提示策略下（称为“价值定锚”），与人类数据的一致性非常强烈。本研究结果不仅有助于提高我们对LLM中价值观的理解，还引入了新的评估LLM响应一致性的方法。

Jul, 2024