BriefGPT.xyz
Ask
alpha
关键词
hanabi benchmark
搜索结果 - 5
面向人工智能协同的语言指导强化学习
在缺乏高质量人类行为数据的情况下,使用预训练的大型语言模型生成人类语言指令的先验策略并规范化强化学习目标可以帮助人工智能代理与人类协作,并在多智能体强化学习问题中实现人工智能代理与人类偏好一致的均衡解。案例中验证了该框架的有效性。
PDF
a year ago
通过人类规正化搜索和学习,实现人类和人工智能的协同
利用针对人类的数据规范化搜索方法及行为克隆技术,开发了一种三步算法来在不完全可观测的完全合作环境中与真人协作,该算法在 Hanabi 基准测试中表现出强大的协调性。
PDF
2 years ago
协调机制的自说明偏差
本文研究合作多智能体问题的一种特定子类,即人类能够发现自我解释偏差(SED)。作者首先给出了 SED 的定义,然后提出了一种新算法 IMPROVISED 来执行 SED,并在 Hanabi 基准设置中进行了评估。IMPROVISED 是第一
→
PDF
2 years ago
香草策略梯度法被忽视了吗?分析 Hanabi 的深度强化学习
通过分析多智能体合作卡牌游戏 Hanabi 基准测试中的几种在线策略深度强化学习算法,我们的研究表明,Vanilla Policy Gradient 在多个随机种子下在简化环境中表现优于 PPO,这是一个反直觉的发现。我们分析了这种行为,并
→
PDF
2 years ago
离线信任学习
该研究提出了一种名为 off-belief learning(OBL)的方法,通过多层次认知推理来解决基于自习的 Dec-POMDPs(分布式部分可观测马尔科夫决策过程)在测试阶段无法适应人类行为模式的问题,并在 Hanabi 基准测试中展
→
PDF
3 years ago
Prev
Next