评估人类语言模型交互

Dec, 2022

Evaluating Human-Language Model Interaction

Mina Lee, Megha Srivastava, Amelia Hardy, John Thickstun, Esin Durmus...

TL;DR本文通过开发人工智能与自然语言交互评估（HALIE）框架，进行基于人的语言模型交互评估，包括交互过程、第一人称主观体验和执行效果等方面，设计并测试了五种交互式任务，研究了四种先进的语言模型，发现非交互式的性能并不总是导致更好的人工智能与自然语言交互，并且第一人称和第三方评价的指标可以有所区别，因此研究人工智能与自然语言交互的微妙差别非常重要。

Abstract

Many real-world applications of language models (LMs), such as code autocomplete and writing assistance, involve human-LM interaction. However, the main LM benchmarks are non-interactive in that a system produces output without human involvement. To evaluate human-LM interaction, we de

human-ai interaction language models evaluation subjective experience performance

发现论文，激发创造

超越静态 AI 评估：推进人机交互评估对 LLM 的伤害和风险

AI 系统的安全性、风险和社会影响的理解，以及人工智能与人类交互的模型评估，是本文的主题。我们讨论并实施了一种新兴评估方法 ——“人机交互评估”，将其运用于安全评估的有效性、直接人类影响和特定交互的危害，以及指导未来模型社会影响的评估。通过一个包含人 - LLM 交互分类的安全焦点的 HIE 设计框架，我们将其应用于两个潜在的过度依赖和说服风险评估，并提出对于 HIE 成本、可复制性和不代表性的担忧的切实建议。

May, 2024

通过交互评估数学语言模型

使用交互式评估方法评估大型语言模型在大学级数学推理方面的能力，为人工智能从业者和数学教授提供可行的建议，重点在于模型应该如何处理不确定性和人类纠错。

Jun, 2023

HumanRankEval: 作为对话助手的语言模型的自动评估

为了加快语言模型作为对话助手的发展，我们提出了一种新的自动评估任务：HumanRankEval（HRE）。它由一个大规模、多样化和高质量的问题集组成，每个问题都有几个由人类撰写和评分的答案。通过对 HRE 排列这些答案并计算它们与相应人类排名的相关性，我们支持了 HRE 的有效性，并研究了它在不同大小的预训练和指导调整语言模型中的效率。我们展示了 HRE 与人类判断相关，并且在指导调整后对模型变化特别敏感。

May, 2024

RealHumanEval: 评估大型语言模型对程序员的支持能力

通过使用 RealHumanEval、静态基准以及优先度度量，研究了大型语言模型（LLMs）在代码编写中的效能表现以及对程序员生产力的影响。发现优化的基准性能可以提高程序员的生产力，但基准性能与人类表现之间的差距并不成比例，同时程序员的偏好与实际表现并无关联，这促使我们需要更好、以人为中心的评估指标。同时，我们公开了 RealHumanEval 工具和研究数据以促进代码模型的改进。

Apr, 2024

人工智能与人类合作文本创作中的交互设计空间

本文探讨了大型语言模型在文本生成方面的出色表现，介绍了不同人工智能与人类交互模式下的文本生成任务谱系，并鼓励研究人员关注需要更高程度人类参与的复杂、相互依存的创作任务。

Mar, 2023

谁在思考？使用 XAI 操作手册推动以人为中心评估 LLMs

本文探讨了人类中心的大型语言模型评估，并提出了心理模型，用例使用价值和认知参与三个研究重点，旨在加速人类中心式大型语言模型评估的进展。

Mar, 2023

EvalLM: 大型语言模型提示的交互式评估及用户定义准则

通过评估多个用户定义的标准，使用自然语言描述系统的评估器提供的反馈，从而使开发人员能够通过迭代改进引导语。与手动评估相比，EvalLM 有助于参与者构建更多样化的标准，检查两倍数量的输出，并在减少 59% 的修订次数后获得令人满意的引导语。该研究可扩展到模型评估和特定应用环境中的对齐。

Sep, 2023

使用模型编写的评价方法发现语言模型行为

本文研究了不同规模的语言模型的行为表现，并提出一种使用语言模型自动生成评估的方法，并发现了一些逆比例缩放情况下的新现象，例如：更大的语言模型表现为对资源获取和目标保持更浓厚的兴趣，并且此类的逆比例缩放（Inverse scaling）情况在 RL from human feedback 上也得到了验证。

Dec, 2022

HEIDL: 用深度学习和人工参与学习语言表达

本文介绍了一种名为 HEIDL 的新型人机交互机器学习系统，可以通过高水平的、可解释的语言表达式与人交互，从而提高人类在模型预测、理解以及更新方面的参与度，并且可以使得机器学习模型能够更好地应用于实际场景中。

Jul, 2019

对话评估工作台：将 LLMs 作为类人对话系统进行评估

本文提出了 DialogBench，这是一个用于评估 LLMs 作为类似人类对话系统的能力的对话评估基准，包含 12 个对话任务。通过对 28 个 LLMs 进行广泛的测试，结果表明虽然细化调整能改善 LLMs 的人类对话系统相似度，但对于大多数 LLMs 仍有提升空间。

Nov, 2023