BriefGPT.xyz
Ask
alpha
关键词
agent policies
搜索结果 - 2
可解释的多实例学习实现基于轨迹标签的非马尔可夫奖励建模
本文中,我们将奖励建模应用于处理非马尔可夫奖励的强化学习问题,我们在此基础上移除了现有工作假设的独立反馈观察前提,并扩展了奖励建模以捕捉人类对轨迹的时间依赖关系。我们将其作为多实例学习(MIL)问题,通过将轨迹视为带有返回标签的包,将轨迹中
→
PDF
2 years ago
AAAI
多智能体问题空间中的协同驱动学习
本文研究了协调在多智能体强化学习中的作用,并提出了一种定量衡量多智能体系统中的协调性的新方法,进一步讨论了采用此类指标来优化协调智能体策略的重要性,以及其在对手感知强化学习中的含义。
PDF
6 years ago
Prev
Next