超越静态评估：评估 AI 助手 API 调用能力的动态方法

COLINGMar, 2024

超越静态评估：评估 AI 助手 API 调用能力的动态方法

Beyond Static Evaluation: A Dynamic Approach to Assessing AI Assistants' API Invocation Capabilities

Honglin Mu, Yang Xu, Yunlong Feng, Xiaofeng Han, Yitong Li...

TL;DR大型语言模型和 AI 助手通过 API 调用的能力取得了显著的进展，然而现有的评估方法可能具有误导性，我们提出了自动动态评估方法（AutoDE）来评估助手的 API 调用能力，不涉及人类的参与。实验证明 AutoDE 可以发现静态评估所遗漏的错误，并与人类评估更加接近。通过对四个 AI 助手使用我们构建的基准测试，我们的方法与人类评估具有 0.99 的相关性，比传统的静态评估提高了 8%。

Abstract

With the rise of large language models (LLMs), ai assistants' ability to utilize tools, especially through api calls, has advanced notably

large language models ai assistants api calls evaluation methods automated dynamic evaluation

发现论文，激发创造

迈向自动图灵测试：学习对话响应评估

提出 ADEM 模型用于对话质量的学习式自动评估，其比基于词汇重叠的 BLEU 更能与人类评估相匹配，同时具有泛化评估不同模型的能力。

Aug, 2017

超越静态数据集：一种深度交互方法用于 LLM 评估

基于深度交互的大语言模型评估框架能够评估大规模的现实世界任务中大语言模型的性能。

Sep, 2023

RealHumanEval: 评估大型语言模型对程序员的支持能力

通过使用 RealHumanEval、静态基准以及优先度度量，研究了大型语言模型（LLMs）在代码编写中的效能表现以及对程序员生产力的影响。发现优化的基准性能可以提高程序员的生产力，但基准性能与人类表现之间的差距并不成比例，同时程序员的偏好与实际表现并无关联，这促使我们需要更好、以人为中心的评估指标。同时，我们公开了 RealHumanEval 工具和研究数据以促进代码模型的改进。

Apr, 2024

HumanRankEval: 作为对话助手的语言模型的自动评估

为了加快语言模型作为对话助手的发展，我们提出了一种新的自动评估任务：HumanRankEval（HRE）。它由一个大规模、多样化和高质量的问题集组成，每个问题都有几个由人类撰写和评分的答案。通过对 HRE 排列这些答案并计算它们与相应人类排名的相关性，我们支持了 HRE 的有效性，并研究了它在不同大小的预训练和指导调整语言模型中的效率。我们展示了 HRE 与人类判断相关，并且在指导调整后对模型变化特别敏感。

May, 2024

面向老年痴呆患者的人工智能语言评估工具

本文提出了一种使用人工智能的语言评估工具，利用机器学习中的二元分类器来识别老年人患痴呆所引起的语言障碍，评估了不同任务、特征与媒介对分类器性能的影响，并确定了工具的可靠性和有效性。

Sep, 2022

自动评估的正确方法：使用合成数据进行模型评估

使用人工标注的验证数据评估机器学习模型是昂贵且耗时的，可以使用 AI 标记的合成数据进行自动评估以减少所需的人工标注数量。我们建议了一种高效且统计原则的算法，提高样本效率同时保持无偏性。这些算法在使用 GPT-4 进行实验时将有效人工标注样本的数量增加了 50%。

Mar, 2024

利用会话式人工智能助手协作进行用户体验评估：提出问题及其提问方法（声音 vs 文本）

探究将交互式对话助手引入 UX 评估以解决分析效率和评估者自主性问题的研究，通过用户测试设计探针，发现参与者主要咨询用户行为、用户的心理模型、AI 助手的帮助、产品和任务信息以及用户组成等方面的信息，并提出了未来设计交互式对话 AI 助手的设计建议。

Mar, 2023

评估人类语言模型交互

本文通过开发人工智能与自然语言交互评估（HALIE）框架，进行基于人的语言模型交互评估，包括交互过程、第一人称主观体验和执行效果等方面，设计并测试了五种交互式任务，研究了四种先进的语言模型，发现非交互式的性能并不总是导致更好的人工智能与自然语言交互，并且第一人称和第三方评价的指标可以有所区别，因此研究人工智能与自然语言交互的微妙差别非常重要。

Dec, 2022

黑盒人工智能代理的差异性评估

本文提出了一种新的方法来 “差异” 评估已经漂移了的黑盒 AI 代理，包括珍稀观测和其初始模型，以生成一个主动查询策略，并计算其功能的更新模型，我们的方法比从头重新学习代理模型要有效得多，使用我们的方法进行差异评估的成本与代理功能的漂移程度成正比。

Mar, 2022

AI 系统的动态文档

本文阐述了目前 AI 文档标准的局限性，并提出动态文档作为评估 AI 系统的新范式。通过对比传统环境影响声明框架与目前算法文档标准之间的区别，以及结合模型卡和两个算法影响评估案例的分析，最后评估了动态 AI 文档规范的最新提议。

Mar, 2023