大型语言模型符合人们的期待吗？测量人类的普适能力函数

Jun, 2024

大型语言模型符合人们的期待吗？测量人类的普适能力函数

Do Large Language Models Perform the Way People Expect? Measuring the Human Generalization Function

Keyon Vafa, Ashesh Rambachan, Sendhil Mullainathan

TL;DR人们使用大型语言模型的目的，以及这些模型的部署决策、人类泛化功能的一致性，以及大型语言模型与人类泛化功能的一致性评估对于模型在特定任务上的表现至关重要。

Abstract

What makes large language models (LLMs) impressive is also what makes them hard to evaluate: their diversity of uses. To evaluate these models, we must understand the purposes they will be used for. We consider a setting where these →

发现论文，激发创造

人类驱动大型语言模型的对齐研究

综述了大型语言模型对齐技术的全面概述，包括数据收集、训练方法和模型评估，并提供了未来研究方向的启示，是了解和推进适应人类任务和期望的LLM对齐的宝贵资源。

Jul, 2023

合作评估：探索大型语言模型与人类在开放式生成评估中的协同作用

为了解决开放式自然语言生成任务中评估标准不一致的挑战，我们提出了一种协同评估流程 CoEval，涉及特定任务标准的清单设计和文本的详细评估，其中大型语言模型生成初步的构思，而人类进行审查，结果显示，通过利用大型语言模型，CoEval能够高效地评估长文本，节省时间并减少人类评估的异常值，人类审查仍然起着重要作用，以最终确保可靠性。

Oct, 2023

语言模型与关键的语法构造符合人类判断

大型语言模型能否像人类一样进行语言普适性推断？通过重新评估 Dentella 等人的研究，我们发现，大型语言模型不仅总体上准确性很高，而且还能捕捉到人类语言判断的细微差异。

Jan, 2024

大型语言模型的评估存在不一致和偏见

本研究通过使用SummEval数据集进行一系列分析，证实了大型语言模型作为评估器在以下方面存在偏见和不一致性：（1）体现对低困惑度文本的偏好；（2）显示具有偏见的评分分布；（3）经历多属性判断时的锚定效应。此外，我们分享了配置大型语言模型评估器以减轻这些限制的方法，通过RoSE数据集的实验证明了与最先进的大型语言模型评估器相比的改进。

May, 2024

ConSiDERS人类评估框架：重新思考生成式大型语言模型的人类评估

通过借鉴用户体验研究和人类行为心理学等学科的见解，我们在这篇论文中讨论了生成式大型语言模型（LLMs）的人工评估应该是一项跨学科工作，以确保实验设计和结果的可靠性。我们强调了认知偏见如何混淆流畅信息和真实性，以及认知不确定性如何影响评分（如Likert）的可靠性。此外，评估应该区分越来越强大的大型语言模型的能力和弱点，这需要有效的测试集。在生成式NLP时代设计一个有效的人工评估系统的可伸缩性也至关重要，因此我们提出了ConSiDERS-The-Human评估框架，它由一致性、评分标准、差异化、用户体验、负责任和可伸缩性这6个支柱组成。

May, 2024

大型语言模型必须学会自知之明

在高风险应用中使用大型语言模型（LLMs）时，我们需要知道何时可以信赖它们的预测。本研究首先论证了仅仅使用提示是不足以实现良好校准的，然后展示了在一个小数据集上进行精调以创建具有良好概括性和小计算开销的不确定性估计的方法。我们还研究了可靠的LLM不确定性估计的机制，并通过用户研究展示了不确定性估计如何影响人与AI的协作环境中的人类使用LLMs。

Jun, 2024

基于LLMs的贝叶斯统计建模

利用贝叶斯统计模型，研究了大型语言模型（LLMs）在人类行为预测方面的类人特性，发现LLMs不能准确捕获人类数据的各项细节，但在聚合和条件水平的预测方面可以有效适配人类数据，显示出某些不同的方法可以使其得到充分的分布式预测。

Jun, 2024

大型语言模型人类偏好学习综述

本综述从以偏好为中心的角度回顾了探索大型语言模型（LLMs）的人类偏好学习的进展，包括偏好反馈的来源和格式，偏好信号的建模和使用，以及对齐LLMs的评估。

Jun, 2024

评估LLM Rationale的人类对齐度和模型忠实度

我们研究了大型语言模型（LLM）如何通过原因来解释其生成的模式，它们是从输入文本中提取出来的一组标记，反映了LLM的决策过程。我们使用两种方法提取LLM原因：1）基于归因的方法使用注意力或梯度来定位重要的标记，以及2）基于提示的方法使用提示来引导LLM提取原因。通过广泛的实验，我们展示了基于提示的原因与人工注释的原因更好地对齐，即使模型性能差，也能合理地与人类对齐。此外，我们还发现基于提示的方法的忠实度限制可能与它们的折叠预测有关。通过在相应的数据集上微调这些模型，无论是提示方法还是归因方法都展现了更好的忠实度。我们的研究为更严格和公正地评估LLM原因提供了启示，尤其是基于提示的方法。

Jun, 2024

揭示因素级偏好以改善人类-模型对齐

本研究旨在解决大型语言模型（LLM）与人类偏好之间的差距，通过提出PROFILE框架剖析影响偏好的因素。研究发现，在生成任务中，LLM的偏好与人类存在显著差异，而在评估任务中则显示出一致性，揭示了利用因素级洞察来改善人类-模型对齐的重要性。

Oct, 2024