离线信任学习

Mar, 2021

Off-Belief Learning

Hengyuan Hu, Adam Lerer, Brandon Cui, David Wu, Luis Pineda...

TL;DR该研究提出了一种名为 off-belief learning（OBL）的方法，通过多层次认知推理来解决基于自习的 Dec-POMDPs（分布式部分可观测马尔科夫决策过程）在测试阶段无法适应人类行为模式的问题，并在 Hanabi 基准测试中展现了强大的表现。

Abstract

The standard problem setting in dec-pomdps is self-play, where the goal is to find a set of policies that play optimally together. Policies learned through self-play may adopt arbitrary conventions and implicitly rely on multi-step reasoning based on fragile assumptions about other age

dec-pomdps off-belief learning multi-level cognitive reasoning zero-shot coordination hanabi benchmark

发现论文，激发创造

合作人工智能的广义信念

本研究提出了一种基于信念空间的策略学习模型，可以在测试时间解码和适应新颖的规约，从而显著提高各种策略池中的特定反应的搜索和训练，同时增强智能体规约的可解释性和可解释性。

Jun, 2022

针对 POMDP 的模仿学习中的信仰表征学习

该研究使用生成对抗（GAN）深度神经网络引导非马尔可夫策略策略的置信度表示，在一定程度上解决了部分可观察马尔可夫决策过程（POMDP）中的模仿学习问题。

Jun, 2019

通过行为隐式学习通信

本研究提出了一种名为 PBL 的算法，用于在协作游戏中进行隐式信息传递，通过使用先验信仰模块和策略模块来完成通信的前半部分和后半部分，并通过辅助奖励激励代理通过行动来进行信息传递，实验表明此辅助奖励有效且易于推广。

Oct, 2018

继续做有效的事情：行为建模先验用于离线强化学习

本文提出了一种能够适用于机器人控制等实际问题，同时在批处理状态下能够有效学习的算法，该算法采用了优势加权行为模型 (ABM) 来对先前执行过的成功动作进行刻画，并对新的任务中可能成功的动作进行策略偏置，实验表明我们的算法在标准连续控制基准测试和多任务学习中都有着较好的效果。

Feb, 2020

BetaZero: 使用学习逼近的置信状态规划长时程 POMDPs

介绍一种基于准确置信模型的 BetaZero 算法，该算法使用在线蒙特卡罗树搜索与线下神经网络逼近相结合的方法来实现长周期问题的在线决策，解决了部分可观测领域的挑战，并在地质勘探等现实任务中表现出色。

May, 2023

离线元学习探索

通过离线数据，基于贝叶斯强化学习视角提出 Offline Meta Reinforcement Learning 问题，研究如何设计元智能体以快速最大化相同任务分布下不同任务中的奖励收益，探究探索策略、MDP 歧义以及稀疏奖励任务等相关问题，最终拥有超越离线数据中单个 RL 代理的探索策略。

Aug, 2020

行动条件自预测强化学习的统一框架

自预测学习是增强学习代理的关键挑战之一，本文通过分析一个考虑行动条件的自预测目标（BYOL-AC），利用 ODE 框架描述其收敛性质，并突出 BYOL-Pi 和 BYOL-AC 动力学之间的重要区别，展示了两个表示之间的差异和联系。在线性函数逼近和深度 RL 环境中的实证研究结果表明，在各种不同场景下，BYOL-AC 具有更好的性能。

Jun, 2024

基于模型的离线规划

提出一种基于模型的离线学习算法 (MBOP)，其可以通过规划直接控制系统。该算法在一系列机器人任务中表现出良好性能，并能够创建零 - shot 目标条件策略。

Aug, 2020

基于模型的离线强化学习中的悲观情况调节动态信念

通过维护动态神经网络的信念分布，以偏向悲观主义的样本采样为基础的迭代策略优化算法被设计，可以最大限度地利用静态数据集，实现基于模型的离线强化学习。

Oct, 2022

对话中隐含人类偏好的大规模脱靶批次深度强化学习

提出了一种新型的基于批处理的深度强化学习算法，可以在没有在线探索的情况下有效地从人类交互数据的固定批量中进行离线学习，并在开放域对话生成等领域取得了显著的改进。

Jun, 2019