通过自我博弈学习多智能体协商

ICCVJan, 2020

Towards Learning Multi-agent Negotiations via Self-Play

Yichuan Charlie Tang

TL;DR这篇论文通过深度强化学习中的自我对战迭代程序展示了如何创建越来越多样化的交通场景并学习多智能体协作策略提高合并操作成功率。

Abstract

Making sophisticated, robust, and safe sequential decisions is at the heart of intelligent systems. This is especially critical for planning in complex multi-agent environments, where agents need to anticipate other agents' intentions and possible future actions. Traditional methods fo

multi-agent environments markov decision process deep reinforcement learning self-play merging traffic

发现论文，激发创造

自主驾驶的安全多智能体强化学习

本文介绍了一种利用深度强化学习解决自动驾驶问题的方案，不同于其他机器人任务，自动驾驶需要确保功能安全和在多个智能体情境下执行正确的决策，其中的主要挑战包括如何处理多个智能体的不确定行为，以及如何在 “Desires” 策略和难以控制的路径规划之间实现平衡。

Oct, 2016

多智能体交互的深度强化学习

本文概述了自主智能体的研究领域和目标，围绕多智能体强化学习、协作、与其他自主智能体的互动、基于内部动机的学习、课程学习等问题提出了自主智能体的开放性问题。

Aug, 2022

多智能体竞争引发的紧急复杂性

本文介绍了几种在三维环境中进行竞争多智能体自我对抗训练的方法，这些方法可以训练出丰富多彩、技能复杂的智能体。此外，我们指出，自我对抗训练可以产生超出环境本身复杂性的行为，并且自带课程设置，有助于智能体学习不同难度水平下的技能。

Oct, 2017

深度强化学习下的多智能体合作与竞争

本文探讨了如何在多智能体环境下，运用扩展后的 Deep Q-Learning Network，使两个由独立的 Deep Q-Networks 控制的 agents，相互作用以玩经典的电子游戏乒乓球，以及通过改变 Pong 经典奖励方案，演示出竞争和合作性行为的出现。研究表明 Deep Q-Networks 可以成为在高度复杂环境中研究分散式学习的多智能体系统的实用工具。

Nov, 2015

利己还是利他？使用强化学习的不同行为特征代理在合同谈判中的行为

使用多智能体强化学习训练的深度学习代理协商合同协议，建立自私和互惠行为的多样性模型，提供经验证据证明，代理人行为一致，最终训练一个元代理，通过学习混合的行为模型，以确保代理人的实用性，并通过实验验证，发现代理人在谈判中出类拔萃并能够合理模拟人类行为。

Sep, 2018

多智能体系统的深度强化学习：挑战、解决方案和应用综述

此篇论文介绍了多智能体深度强化学习的不同方法，包括非静态性、部分可观测性、连续的状态和操作空间、多智能体训练机制、多智能体转移学习，并分析和讨论了这些方法的优缺点及其相关应用，旨在促进更加健壮和高效的多智能体学习方法的发展。

Dec, 2018

基于深度强化学习的战略对话管理

本研究成功应用深度强化学习 (DRL) 训练具备谈判能力的智能策略代理程序，实验表明该程序与由人工设计的规则、随机等算法相比，获胜率提高至 53%。

Nov, 2015

基于深度强化学习的实际驾驶环境离散控制

本篇研究提出了一个基于真实驾驶环境的 MDP 框架，使用多智能体学习算法来实现对自动驾驶车辆的训练，并提出了可靠的初始化、数据增强和训练技术来实现最小化的视频数据和培训，最终在 TORCS 虚拟驾驶环境中得到了验证。

Nov, 2022

适应性棋局环境中的强化学习用于检测人类可理解概念

本研究展示了一种探测自学习算法在训练过程中内部概念的方法，以国际象棋游戏代理为例进行了演示，此方法适用于没有大量计算资源或机器学习模型的研究团体。

Nov, 2022

自主驾驶的深度强化学习：一份综述

本文综述了深度强化学习算法在自动驾驶任务上的应用，包括分类、验证、测试和强化现有强化学习算法解决方案的方法，还介绍了相关领域和挑战。

Feb, 2020