- 基于离线数据的观测模仿学习的双重方法
通过学习一个多步效用函数来量化每个行动对智能体与专家的访问分布之间的差异,我们提出了 DILO (从观测中进行双重模仿学习) 算法,它可以利用任意次优数据学习模仿策略而不需要专家行动,从而有效地解决了高维观测问题,表现得更好。
- ICML因果作用感知的反事实数据增强
离线数据是教导机器人复杂行为的宝贵和实用资源。本文介绍了一种数据增广方法 CAIAC,可以在没有访问在线环境交互的情况下,从一个固定的数据集中创建可行的合成转换。通过利用量化因果影响的原则方法,我们能够通过在数据集中独立轨迹之间交换 “不受 - 马尔可夫决策过程中的联邦控制
研究马尔可夫决策过程中的联合控制问题,介绍了多个学习代理的概念,使用名为联合 Q 协议(FedQ)的通信协议解决大状态空间下的 MDP,理论分析了 FedQ 协议的正确性和派生算法 FedQ-X 的样本复杂度,实验证明了方法的有效性。
- 关于度量预条件对一般参数化机器学习模型和通过领域适应进行迁移学习的影响
通过类似于 Fatou 引理的方法,我们研究了理解在数据的小改动下学习代理的收敛性的新技术,并展示了其在一般机器学习任务和领域自适应传递学习中的相关性和应用。
- 通过马尔可夫博弈中的贝叶斯规则归纳来学习和维持共享规范系统
学习智能体可以通过假设存在共享的规范来推断现有人群的规范,进而实现学习与社会合作。该研究在马尔可夫博弈的环境中形式化了这一框架,并通过近似贝叶斯规则归纳来展示了多智能体环境中的操作,使智能体能够快速学习和维持各种合作制度,包括资源管理规范和 - IJCAI多智能体团队学习的更深层理解
研究团队结构在群体学习中的影响,结果显示,某些团队结构帮助代理程序学习特定角色,从而获得更有利的全局结果;然而,大型团队创建的信用分配挑战降低了协调性,导致大型团队表现不如小型团队。
- 成本感知连续学习中的快速上下文适应
本文探讨了在 5G 等新型网络中,如何平衡学习过程和用户数据平面的资源需求,并提出了一种动态策略来达成资源的有效利用和数据保障。研究结果表明,该方法在减少对用户 QoS 干扰的同时,可以比传统静态分配方法更快地达到高效的资源分配策略,达到了 - 学习团队对齐:基于多智体团队的自适应 Credo 框架
在多智能体团队中使用混合激励机制具有优势,作者们提出了一个框架,在此框架下,学习智能体可以通过其奖励函数的不同部分自我调节其激励配置。他们的模型基于分层强化学习和元学习的思想,可以学习支持行为策略发展的奖励函数的配置。初步结果表明,通过自我 - 探究直接惩罚在多智能体强化学习系统中对合作出现的影响
本文对多智能体强化学习系统中直接惩罚形式的合作行为和学习动态进行了全面分析,并比较了第三方惩罚与直接惩罚的差异性,讨论这些机制在合作人工智能系统设计中的应用意义。
- PIC4rl-gym:一个用于机器人深度强化学习自主导航的 ROS2 模块化框架
本文介绍了一个模块化框架 PIC4rl-gym,通过融合 ROS2 和 Gazebo 以及深度强化学习技术,提高自主导航的灵活性、效率和计算成本,实现智能体的训练和测试,并通过基于完整的指标集选择不同的导航任务进行基准测试。
- 使用 RL 和基于记忆片段的行为先验进行规划
本文提出了一种规划方法,使用行为先验知识帮助增强学习中的有效探索和学习,表明探索策略形式的行为先验可以帮助代理更快地学习。
- ICML无模型对手塑形
本文提出了一种名为 Model-Free Opponent Shaping(M-FOS)的方法,利用元学习在长周期博弈下进行对手塑造,解决通过算法塑造对手进行博弈中的困境,实验表明该方法在训练中充分利用其他算法,达到了社会最优结果,同时还能 - Hidden Agenda:具有不同学到均衡的社交推断游戏
这篇研究论文介绍了一种名为 Hidden Agenda 的社交推理游戏,用于研究多代理合作中的合作决策和学习智能体在未知背景下的团队合作。通过强化学习算法,这些代理可以学习各种行为,包括在没有语言交流的情况下的搭档和投票。
- 利用人类辅助完成顺序决策任务的最新进展
本文综述了五种最近主要依赖于人类指导的机器学习框架及其动机,假设和实施,并讨论可能的未来研究方向。
- 图神经网络中的逻辑推理能力评估
本研究探讨使用关系学习算法如何进行逻辑推理,在设计了一套基于一阶逻辑的基准测试套件 GraphLog 后,我们使用图神经网络 (GNN) 来进行评估,并发现模型的泛化和适应能力强度受到训练中遇到的不同逻辑规则的多样性的影响。
- 网络上个性化模型的分散协作学习
本论文研究了一组学习代理在协作对等网络中,每个代理根据自己的学习目标学习个性化模型。本文介绍和分析了两种异步流言算法,以完全分散的方式运行。我们的第一种方法旨在在网络上平滑预训练的本地模型,同时考虑每个代理在其初始模型中的置信度。在我们的第 - 非随机赌博机中的延迟与合作
研究了协作解决普通非随机赌博问题的学习代理通信网络,介绍了 extsc {Exp3-Coop} 算法并证明了该算法的最大后悔度界限。
- 通用智能:机器智能的定义
本文旨在通过数学公式将各种形式的人工智能定义转化为机器学习中的智能度量,并将之与通用最优学习智能体的理论联系起来,最后综述了已经为机器学习提出的智能度量和测试方法。