一个更多：单一网络中的多样观点用于高效深度强化学习

Oct, 2023

一个更多：单一网络中的多样观点用于高效深度强化学习

One is More: Diverse Perspectives within a Single Network for Efficient DRL

Yiqin Tan, Ling Pan, Longbo Huang

TL;DR使用深度强化学习和神经网络对值函数和策略函数进行逼近在各个领域都取得了显著的成果，但是这种方法仍然面临低采样效率和过拟合的挑战，本文介绍了一种名为 OMNet 的新学习范式，在单个网络中利用多个子网络高效地提供多样化输出，我们提供了 OMNet 的初始化、训练和采样的系统流程，它可以轻松应用于各种深度强化学习算法，并且在 MuJoCo 基准测试中的综合评估结果突出了 OMNet 在性能和计算成本之间找到有效平衡的能力。

Abstract

deep reinforcement learning has achieved remarkable performance in various domains by leveraging deep neural networks for approximating value fun

deep reinforcement learning neural networks approximating value functions omnet computational cost

发现论文，激发创造

多目标优化的深度强化学习

本文提出了一种通过深度强化学习和神经网络实现的多目标优化问题解决方案，其中采用分解思想将问题分解为一组标量优化子问题并针对每个子问题建立神经网络模型。通过邻域参数传递策略和 DRL 训练算法共同优化所有子问题的模型参数，并利用训练好的神经网络模型直接得到帕累托最优解。其中将多目标旅行商问题作为研究对象，使用 DRL-MOA 方法建模子问题为指针网络并与其他基准方法进行对比，在实验中表现出了较强的泛化能力和快速解决速度。

Jun, 2019

分布式多智能体协作的对手建模层次强化学习

本文介绍了一种基于深度强化学习的多智能体协作方法，通过分布式学习实现了高效的策略搜索，并在合作变道场景中进行了仿真和实际案例验证。

Jun, 2022

多时间尺度集成 Q-learning 用于马尔科夫决策过程策略优化

提出了一种新颖的模型无关的集合强化学习算法，通过在多个合成的与马尔可夫决策过程相关的环境上运行多个 Q 学习算法，并使用基于 Jensen-Shannon 差异的自适应加权机制来融合输出，获得具有低复杂度的近似最优策略。与最先进的 Q 学习算法相比，数值实验结果显示，该算法平均策略误差可以减少高达 55％，运行时复杂度可以减少高达 50％，并验证了理论分析中的假设。

Feb, 2024

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022

多智能体强化学习中动作 - 价值网络的表征能力

本文探讨了深度强化学习技术在合作多智能体系统中的应用，实验结果表明不同网络架构的表现存在差异，提出了增强其表示能力来解决失败问题的建议。

Feb, 2019

MAN: 多动作网络学习

我们提出了一种新的 DRL 算法 Multi-Action Networks Learning 来解决高维度大离散行动空间的问题，并实验验证得出，MAN 比当前用于大离散行动空间的异步时间差分算法更快地学习策略。

Sep, 2022

多视角强化学习

本文介绍了多视角强化学习（MVRL）模型，通过观察模型来解决决策问题，提出了两种求解方法：观察扩展和跨角度策略转移，实验证明这两种方法在处理多视角环境中具有较好的性能，减少样本复杂度和计算时间。

Oct, 2019

元强化学习中的超网络

本研究基于机器人实验，研究了在多个相关任务中训练深度强化学习模型的样本效率问题，采用一种称为超网络的方法来解决模型泛化问题，并且提出了一种新的超网络初始化策略，该策略在多个模拟机器人基准测试上的表现超过了现有方法。

Oct, 2022

多智能体深度网络下的多样化 Q - 向量强化学习

本论文扩展了之前的研究，提出了一种能够使用 Max、Nash 和 Maximin 策略学习各种 Q 向量的深度 Q 网络（DQN）算法，并在双机械臂合作举起锅的环境中展示了这种方法的有效性。

Jun, 2024

为何多个网络头胜过单独一个：训练深度神经网络的多样集成

本研究探讨了如何最佳地建立卷积神经网络的组合，比较了多种资源共享和差异性鼓励的策略，其中提出了 TreeNets 算法，最后通过端到端的训练以统一的损失函数获得比传统算法更高的准确率。

Nov, 2015