具有不完全信息的社会困境中的后果主义条件合作

Oct, 2017

具有不完全信息的社会困境中的后果主义条件合作

Consequentialist conditional cooperation in social dilemmas with imperfect information

Alexander Peysakhovich, Adam Lerer

TL;DR构建一个条件纯合作的智能体来解决社会困境问题，使用强化学习技术，仅仅基于结果而非意图，可以构建出好的策略，在真实社会困境中有效，并且探讨分析了仅仅基于结果的限制和理解行动背后意图的必要性。

Abstract

social dilemmas, where mutual cooperation can lead to high payoffs but participants face incentives to cheat, are ubiquitous in multi-agent interaction. We wish to construct agents that cooperate with pure cooper

发现论文，激发创造

序贯社交困境中的多智体强化学习

本文提出了顺序社会困境概念，以两种引入的马尔可夫博弈为例，分析了多个自利的独立学习智能体使用自己的Deep Q-Networks所学习的策略，同时展示了竞争如何导致冲突并阐明了真实世界社会困境的顺序性质如何影响合作。

Feb, 2017

使用深度强化学习维持复杂社交困境中的合作

在社会困境中建立AI代理能够在个体私利和集体福利间取得平衡，研究人员修改强化学习方法来构建行为明了，好相处，可激怒且宽容的代理，通过理论与实验表明这些代理能在马尔可夫社会困境中维持合作。

Jul, 2017

深度多智能体强化学习在顺序囚徒困境合作中的应用

通过提出一种序列囚徒困境游戏和使用深度多智能体强化学习方法进行研究，本文探讨互相合作演化趋势。实验表明，该策略可避免被攻击并与合作的对手实现合作。

Mar, 2018

公平厌恶提高了跨时社会困境中的合作

研究探讨了多智能体强化学习在社会困境问题上的局限性及由于人类存在的不平等厌恶行为对解决社会困境问题的重要作用。

Mar, 2018

学习复杂连续社交困境中的互惠原则

本研究提出了一种通用的在线强化学习算法，该算法能够向其合作伙伴表现出互惠行为，并在与自私代理一起学习时能够诱发更广泛的群体互惠行为，无论是在 $2$-player Markov game 还是 $5$-player intertemporal social dilemmas 中。研究分析表明，实施互惠行为的代理受到其合作伙伴行为的强烈影响。

Mar, 2019

学习如何激励其他学习智能体

本文提出了在多个智能体环境中，为每个RL 智能体提供直接向其它智能体给予奖励的能力，并通过学习后的激励函数影响其它智能体，从而达到协作的目的。实验结果显示，在 challenging general-sum Markov games 中，相对于标准RL和对手建模代理，这种方法在寻找最优的分工方面取得了巨大的成功。

Jun, 2020

Hidden Agenda：具有不同学到均衡的社交推断游戏

这篇研究论文介绍了一种名为 Hidden Agenda 的社交推理游戏，用于研究多代理合作中的合作决策和学习智能体在未知背景下的团队合作。通过强化学习算法，这些代理可以学习各种行为，包括在没有语言交流的情况下的搭档和投票。

Jan, 2022

关于在重复博弈中无法学习适应性合作策略的问题

本研究旨在了解在没有特定假设的情况下，我们是否能可靠地学会与其他具有自适应行为的智能体合作，并得出一组不可能性结果，表明即使智能体保证与某些固定策略合作，也没有学习算法可以可靠地学习如何与所有可能的自适应伙伴合作；随后讨论了捕捉自适应伙伴只会理性地适应我们行为的潜在替代假设。

Jun, 2022

Stubborn: 一种用于评估具有相似激励的代理之间顽固性的环境

本文主要介绍了一种基于多智能体强化学习 (MARL) 的环境 Stubborn，用于研究完全合作环境下代理之间的固执程度对社会动态的影响，并探究如何通过这种固执行为来提高环境中代理的智能行为选择。

Apr, 2023

不确定激励一致下的紧急合作

不确定性降低了代理人在合作行为中的能力，但通过声誉机制和内在奖励可以增强合作环境中的代理人能力并大幅提升混合动机环境中的合作。

Jan, 2024