人工智能与人类合作的多元规范

Oct, 2023

Diverse Conventions for Human-AI Collaboration

Bidipta Sarkar, Andy Shih, Dorsa Sadigh

TL;DR通过最大化自我博弈回报和最小化与先前发现的约定交互时的回报的方法，我们的技术在多代理合作游戏中生成多样化的约定，以适应人类的约定，并在与真实用户配对时超越人类水平的性能。

Abstract

conventions are crucial for strong performance in cooperative multi-agent games, because they allow players to coordinate on a shared strategy without explicit communication. Unfortunately, standard multi-agent reinforcement learning techniques, such as self-play, converge to

conventions multi-agent reinforcement learning diverse cross-play human-level performance

发现论文，激发创造

论习惯在人工智能协作中的关键作用

提出了一种基于规则和传统的分离表示学习框架，能够使 AI 代理快速适应新的任务和伙伴，从而实现零 - shot 协调。

Apr, 2021

合作人工智能的广义信念

本研究提出了一种基于信念空间的策略学习模型，可以在测试时间解码和适应新颖的规约，从而显著提高各种策略池中的特定反应的搜索和训练，同时增强智能体规约的可解释性和可解释性。

Jun, 2022

通过观察自我对弈增强学习现有社会惯例

研究了在协调博弈中，人工智能代理人如何通过多智能体强化学习和模仿学习来优化策略以满足现有社交约定。结果表明，使用少量模仿学习可以显著提高多智能体强化学习找到与现有社交约定相符的策略的概率。

Jun, 2018

通过自我博弈学习多智能体协商

这篇论文通过深度强化学习中的自我对战迭代程序展示了如何创建越来越多样化的交通场景并学习多智能体协作策略提高合并操作成功率。

Jan, 2020

基于预备性基于语言约定的高效人工智能协作

使用大型语言模型开发协同规约，能够有效引导人类和人工智能之间的协调；通过将问题分解、多个新会话和人类反馈等策略应用于规约制定问题，可以获得更高效的协调规约；在与真实人类协同时，该方法与人类偏好更加一致，性能平均提高了 15%。

Nov, 2023

无需人类数据的人机协作

本文探究如何培训出更好地与人类合作的机器人，提出了一种名为 Fictitious Co-Play 的方法，通过与自己过去的训练成果和自己对战来训练代理人合作，实证实验显示在与新型代理人和人类伙伴（比如二人协作烹饪模拟器）合作时，使用 FCP 方法产生显著更高的学习效果与人类喜好。

Oct, 2021

学习关于人类的知识对于人工智能协作的效用

研究表明，当自主算法如自我博弈和基于群体的训练算法用于训练智能体时，智能体往往只能与自己合作，而不能与人类合作。本文在一个类似于烹饪过程的环境中设计了几个智能体，以展示他们在与人类协作方面的表现，并探讨了更好协作的设计方法。

Oct, 2019

Any-Play: 零样本协同的内在增强

通过 inter-algorithm cross-play 评估了协作人工智能算法的表现，提出了一种多智能体扩展的 intrinsic reward 方法 Any-Play 学习，在合作卡牌游戏 Hanabi 中表现为最先进的协作算法。

Jan, 2022

自适应即时策略对接

本文提出了使用贝叶斯推断和 Gibbs 采样等技术来解决多智能体强化学习协作中的协调难题，以实现智能体对人类和其他智能体的有效交互，并在 Hanabi 这个复杂的纸牌游戏中表现出了强大的能力。

Mar, 2022

可解释化多智能体强化学习的概念学习

本文介绍了一种将领域专家的可解释概念纳入到多智能体强化学习模型中的方法，以提高模型的解释性和稳定性，提高性能和样本效率。

Feb, 2023