大规模多人游戏中的人工智能与人类协调

Feb, 2024

大规模多人游戏中的人工智能与人类协调

Toward Human-AI Alignment in Large-Scale Multi-Player Games

Sugandha Sharma, Guy Davidson, Khimya Khetarpal, Anssi Kanervisto, Udit Arora...

TL;DR评估人工智能与人类在复杂多智体游戏中的一致性，提出了一种使用可解释的任务集框架评估的方法，重点关注高级行为任务而非低级策略。通过分析人类游戏数据和训练 AI 代理，将人类和 AI 游戏对比，发现人类和 AI 之间存在显著差异，强调在多人游戏中应对人工智能的评估、设计和整合进行清晰解释。

Abstract

Achieving human-ai alignment in complex multi-agent games is crucial for creating trustworthy AI agents that enhance gameplay. We propose a method to evaluate this alignment using an interpretable task-sets framework

human-ai alignment interpretable task-sets framework behavior manifold generative pretrained causal transformer interpretable human-agent alignment

发现论文，激发创造

通过基于正面人类收益的以人为中心建模方法增强人机协作中的人类体验

我们提出了一种以人为中心的建模方案，旨在通过强化学习来提高人类与协作智能体合作时的体验，并在多人在线战斗竞技游戏中进行了有效性评估。

Jan, 2024

设计人机一致性：了解人类对其代理人的需求

我们进行了一项关于设计能够在虚构但具有实际意义的在线相机销售任务中进行谈判的代理的质性经验研究，发现为了代理成功完成任务，人类 / 用户和代理需要在知识架构、自主性和代理性、操作性、培训、声誉启发式和伦理、人类参与等六个维度上达成一致。这些经验研究结果扩展了以往有关过程和规范对齐以及人工智能与人类交互中价值观和安全性需求的相关工作，并讨论了设计师在设想充满人类 - 代理协作的世界中的三个设计方向。

Apr, 2024

迈向对称多人游戏的有原则的超越人类水平 AI

多人游戏的独特挑战在于均衡策略的非唯一性和代理人执行高度次优策略的风险。本文首次解决了多人对称标准形式游戏中的这些挑战，给出了 AI 代理人应该找到的正确解决方案以及能够证明解决该类游戏的通用算法框架。我们还证明了许多先前实用系统中开发的元算法甚至无法实现基本目标，即获得代理人的总奖励的平等份额。

Jun, 2024

朝双向人工智能对齐迈进：澄清、框架和未来发展的系统综述

近期的人工智能的普适性进展凸显出引导人工智能系统走向个人和群体的目标、道德原则和价值观的重要性，这被广泛称为对齐。然而，人工智能和哲学领域对于人工智能和人类对齐的定义和范围尚未被明确界定，而且这个问题的长期互动和动态变化也基本被忽视。为了填补这些空白，我们对 2019 年至 2024 年 1 月间发表的 400 多篇论文进行了系统综述，涵盖了人机交互、自然语言处理、机器学习等多个领域。我们对人工智能与人类对齐进行了描述、定义和范围界定，并从以人为中心的视角提出了一个 “双向人工智能与人类对齐” 的概念框架来组织文献。该框架包括了将人工智能与人类对齐的传统研究，即确保人工智能系统产生由人类确定的预期结果，以及调整人类与人工智能对齐的概念，旨在帮助个人和社会在认知和行为上适应人工智能进展。此外，我们阐述了文献分析的关键发现，包括关于人类价值观、交互技术和评估的讨论。为了未来研究的发展，我们展望了未来方向的三个关键挑战，并提出了潜在的未来解决方案的例子。

Jun, 2024

多元人工智能监督原则的探索

使用下一个令牌预测训练大型 Transformer 在人工智能方面取得了突破性进展，但这种生成式人工智能方法严重依赖人类监督，我们提出了一种新的自主生成高质量训练数据的范式 —— 探索型人工智能 (EAI)，通过利用大型语言模型在自然语言空间内进行探索达到这一目的。实证评估表明，EAI 显著提升了模型在复杂推理任务上的性能，解决了人类密集监督的局限。

Oct, 2023

负责任的多智能体行为

用三个责任 AI 支柱（可解释性、公平性和鲁棒性）在多智能体学习中探索可解释性，展示人们如何更好地理解和塑造多智能体学习的新技术。

Nov, 2023

表现和体验像人类的生成角色

本研究考虑将行为规则、奖励和人类示范化为生成 AI 代理即程序化人物角色，以模拟人类玩家的游戏体验，通过 Go-Explore 强化学习方法来训练人类化的代理，其结果显示生成的代理呈现出人类玩家的不同游戏风格和体验响应，同时对玩家体验的考虑，能够更好地推动行为探索。

Aug, 2022

易于困难泛化：超越人类监督的可扩展对齐

通过从易到难的泛化和评估者的使用，本文提出一种可扩展的 AI 对齐方法，用于解决超越人类监督水平的困难推理任务，提升生成器模型在数学问题上的准确率。

Mar, 2024

衡量代理之间的错位

通过应用争论模型分析不同领域的案例研究，本研究旨在解决 AI 对齐问题中复杂的利益冲突，为 AI 工程师确保系统最大程度地与多样化的人类利益对齐提供了有代表性的价值数据。

Jun, 2024

指挥官意图：战略游戏中人工智能任务规定的数据集和建模方法

该论文提出一种使用目标和约束作为支架来调节和评估自主代理，并通过提供一种新颖的数据集和相关的数据收集协议，利用最先进的自然语言处理模型和增强程序开发了一种可用于从非结构化策略描述中识别目标和约束的机器学习框架，其结果表明，机器学习架构比人类评分员更能将非结构化语言描述解释为策略规范。

Aug, 2022