在遗憾匹配中平衡自我博弈训练中角色的人工智能强度

Jan, 2024

在遗憾匹配中平衡自我博弈训练中角色的人工智能强度

Balancing the AI Strength of Roles in Self-Play Training with Regret Matching+

Xiaoxi Wang

TL;DR通过引入 Regret Matching + 方法，训练一种通用模型来控制游戏中的任何角色，以实现人工智能在多角色游戏中的均衡性能。

Abstract

When training artificial intelligence for games encompassing multiple roles, the development of a generalized model capable of controlling

artificial intelligence games generalized model regret matching+balanced performance

发现论文，激发创造

偏倚缓解之补偿：一种强化学习视角

人工智能与人类决策的整合越来越紧密，我们必须仔细考虑两者之间的相互作用。尤其是当前的方法着重于优化个体代理行为，但往往忽视了集体智能的微妙之处。群体动态可能要求一个代理（例如，人工智能系统）对另一个代理（例如，人类）中的偏见和错误进行补偿，但这种补偿应该经过慎重发展。我们提供了一个理论框架，通过综合博弈论和强化学习原理演示了来自代理的连续学习动态的欺骗性结果的自然出现。我们提供了涉及马尔可夫决策过程（MDP）学习相互作用的模拟结果。然后，这项工作为我们在动态和复杂的决策环境中对 AI 代理应对其他代理的偏见和行为的条件进行了道德分析提供了基础。总的来说，我们的方法涉及了人类战略欺骗的微妙角色，并对以前的假设提出了挑战，即其有害的影响。我们断言，对他人偏见的补偿可以增强协调和道德一致性：当人工智能系统在道德管理下进行战略欺骗时，可以积极塑造人工智能与人类之间的互动。

Apr, 2024

合作人工智能的广义信念

本研究提出了一种基于信念空间的策略学习模型，可以在测试时间解码和适应新颖的规约，从而显著提高各种策略池中的特定反应的搜索和训练，同时增强智能体规约的可解释性和可解释性。

Jun, 2022

负责任的人工智能（RAI）游戏与集合

通过对于不确定性集合的极小 - 极大问题进行研究，我们提供了一个被称为负责任人工智能（RAI）游戏的通用框架，并给出了两类算法来解决这些问题：基于游戏的算法和贪婪分阶段估计算法。我们通过实证方法证明了我们的技术在解决几个 RAI 问题，特别是在子群体转变方面的适用性和竞争性表现。

Oct, 2023

人类如何平衡个人利益与他人利益的可预测性

使用最先进的三个聊天机器人进行 78 个实验，研究其对独裁者游戏决策的能力，发现只有 GPT-4 能准确捕捉到行为模式，包括自利、不公不平等和完全利他三类，但 GPT-4 普遍高估了他人关注行为，并夸大了不公不平等和完全利他者的比例，这对人工智能开发者和用户具有重要影响。

Jul, 2023

通过遗憾最小化进行 AI 安全的辩论

考虑使用辩论作为 AI 安全问题的重复博弈，研究在该情境下当玩家是 AI 或人类，且拥有超级 AI 计算能力时的高效后悔最小化问题，进一步阐述了达到相关均衡的策略序列的条件。

Dec, 2023

支持决策的数字战争游戏中用于扩展人工智能

本文介绍了在技术驱动的转型时代，加强对人工智能在决策支持军事模拟中的应用的投资的重要性，通过推进人工智能系统和人类判断的结合来提高全域意识、改善决策周期的速度和质量、提供新型行动建议以及更迅速地应对对手行动；同时提出了通过深度强化学习来开发智能代理行为的前景与挑战，进一步讨论了通过多模型方法和维度不变观察抽象来开发层次强化学习框架的研究。

Feb, 2024

战争游戏中智能代理的规模化

未来与先进技术竞争对手保持竞争力需要加快我们在战争推演中人工智能（AI）的研发。更重要的是，利用机器学习进行智能战斗行为开发将成为未来实现超人类表现的关键，提高未来战争决策的质量和加速速度。尽管深度强化学习（RL）在智能代理行为开发方面仍然显示出有希望的结果，但在战斗模拟中通常遇到的长远、复杂任务中尚未达到或超过人类水平。充分利用 RL 的成功潜力和分层强化学习（HRL）的最新成功，我们的研究正在探索和扩展 HRL 的使用，以创建能在这些庞大而复杂的模拟环境中有效执行的智能代理。我们的最终目标是开发出一个能够具有超人类表现的代理，然后作为军事规划者和决策者的人工智能顾问。本文介绍了我们正在进行的方法以及我们的五个研究领域中的前三个，旨在管理迅速增长的计算，这些计算迄今为止限制了 AI 在战斗模拟中的使用: （1）为作战单位开发 HRL 训练框架和代理架构；（2）开发代理决策的多模型框架；（3）开发维度不变的状态空间观察抽象化以管理计算的指数增长；（4）开发内在奖励引擎以实现长期规划；（5）将该框架实施到更高保真度的战斗模拟中。

Feb, 2024

多游戏决策转换器

本研究探讨了采用 transformer-based model 方法训练的多用途强化学习代理程序在 Atari 游戏中的表现，发现使用 Multi-Game Decision Transformer 模型的性能和可伸缩性最佳，并提供预训练模型和代码以鼓励该方向的进一步研究。

May, 2022

游戏中赋能韧性的共情人工智能

本文介绍一种数据驱动的 6 阶段方法，用于建立具有同情心的人工智能（EAI），该方法可从原始聊天日志数据中检测关键情感状态，识别常见的序列和情感调节策略，并将其推广以使其适用于干预系统，应用于 (严肃) 视频游戏之中。

Feb, 2023

学习在团队规模间转移角色分配

我们提出了一个基于角色的多智能体强化学习框架，该框架使用角色分配网络将学习代理分配到团队中，以适应不同的团队大小，并通过 StarCraft II 模拟来展示该方法的有效性。

Apr, 2022