超越静态 AI 评估：推进人机交互评估对 LLM 的伤害和风险

May, 2024

超越静态 AI 评估：推进人机交互评估对 LLM 的伤害和风险

Beyond static AI evaluations: advancing human interaction evaluations for LLM harms and risks

Lujain Ibrahim, Saffron Huang, Lama Ahmad, Markus Anderljung

TL;DRAI 系统的安全性、风险和社会影响的理解，以及人工智能与人类交互的模型评估，是本文的主题。我们讨论并实施了一种新兴评估方法 ——“人机交互评估”，将其运用于安全评估的有效性、直接人类影响和特定交互的危害，以及指导未来模型社会影响的评估。通过一个包含人 - LLM 交互分类的安全焦点的 HIE 设计框架，我们将其应用于两个潜在的过度依赖和说服风险评估，并提出对于 HIE 成本、可复制性和不代表性的担忧的切实建议。

Abstract

model evaluations are central to understanding the safety, risks, and societal impacts of AI systems. While most real-world AI applications involve human-ai interaction, most current evaluations (e.g., common ben

model evaluations human-ai interaction human interaction evaluations safety-focused hie design framework risks and societal impacts of ai systems

发现论文，激发创造

评估人类语言模型交互

本文通过开发人工智能与自然语言交互评估（HALIE）框架，进行基于人的语言模型交互评估，包括交互过程、第一人称主观体验和执行效果等方面，设计并测试了五种交互式任务，研究了四种先进的语言模型，发现非交互式的性能并不总是导致更好的人工智能与自然语言交互，并且第一人称和第三方评价的指标可以有所区别，因此研究人工智能与自然语言交互的微妙差别非常重要。

Dec, 2022

谁在思考？使用 XAI 操作手册推动以人为中心评估 LLMs

本文探讨了人类中心的大型语言模型评估，并提出了心理模型，用例使用价值和认知参与三个研究重点，旨在加速人类中心式大型语言模型评估的进展。

Mar, 2023

先进人工智能模型的整体安全和责任评估

高级 AI 模型的安全性和责任评估是研究和实践的一个关键但发展中的领域。该报告总结了 Google DeepMind 在高级 AI 模型的开发中创新并应用了一系列广泛的安全评估方法，并分享了其演变过程中的方法以及从中得出的教训。

Apr, 2024

安全关键行业中的人工智能与人类互动研究：一个系统文献综述

确保安全关键行业中的质量人机交互（HAII）至关重要，研究工作需要整合术语描述、AI 系统的主要角色、影响 HAII 的因素、样本性能和衡量 HAII 的方法。此领域的研究存在巨大的空白，研究者和开发者需要明确术语、让用户参与整个 AI 生命周期，并将 HAII 在安全关键行业中针对用户和环境进行定制。

Oct, 2023

重新思考模型评估作为缩小社会技术差距的一种方式

在这篇论文中，作者认为生成模型和大型语言模型（LLM）的发展给模型评估带来了新的挑战与责任，因此呼吁研究人员应开发基于真实世界的社会需求的评估方法，并兼顾现实与成本的平衡，以缩小模型使用中的社会技术差距，同时为大型语言模型的评估提供开放性问题和机会。

Jun, 2023

医疗领域生成型大型语言模型人工评估的文献综述与框架

该研究回顾了健康医疗领域中基于大型语言模型的人工智能生成文本的人工评估方法，并使用 QUEST 框架提出了一个标准化和统一的人工评估方法，旨在提高可靠性和适用性。

May, 2024

AI 法案与大型语言模型（LLMs）：关于重要问题和隐私影响时需要人类和道德监督

人工智能系统和大型语言模型的迅猛发展使得有必要评估它们在隐私保护、个人数据保护以及伦理层面上对最弱和最脆弱群体可能产生的风险和影响。本研究聚焦于人类监督、伦理监督和隐私影响评估。

Mar, 2024

人类与自动化机器学习系统的角色和交互模式

本文主要探讨在当前和未来的自动机器学习系统中，人与计算机交互如何发生（包括开发、部署和维护阶段的 HCI），不同类型的用户和利益相关方对 HCI 的期望是否存在差异，如何管理 HCI 以使自动机器学习获得人的信任和广泛接受，以及随着自动机器学习系统变得更加自主和学习能力增强，HCI 的基本特性是否会发生变化。研究关键领域包括自动化机器学习，人机交互，用户界面设计，人工智能信任等方面。

May, 2022

LLM 驱动的机器人存在歧视、暴力和非法行为风险

人机交互 (HRI) 和人工智能 (AI) 社区提出了大型语言模型（LLMs）作为机器人任务的一个有前景的资源，然而最近的研究引发了对 LLMs 在真实世界机器人实验和应用中产生歧视性结果和不安全行为的担忧。为了解决这些问题，我们在几个高评级的 LLMs 上进行了基于 HRI 的歧视和安全评估，发现它们在遇到具有多样性的受保护身份特征（例如种族、性别、残疾状况、国籍、宗教和交叉特征）的人时，产生了与直接歧视结果一致的偏见输出；此外，我们在自由语言输入环境中测试模型，发现它们不能安全行动，生成的回应接受有危险、暴力或非法指令，例如引发事故的错误陈述、夺取人们的移动辅助设备和性侵行为。我们的结果强调了迫切需要系统、常规和全面的风险评估和保证，以改善结果，并确保 LLMs 只在安全、有效和公正的情况下在机器人上运行。数据和代码将提供。

Jun, 2024

设计和评估以人为中心的交互式机器学习简要指南

该研究论文提出了一种面向人类的指南，旨在帮助机器学习从业者在开发和部署交互式机器学习系统时，解决人机协作、模型评估、公平透明等责任问题，以促进人类技能和能力的增强

Apr, 2022