BriefGPT.xyz
Ask
alpha
关键词
regret gap
搜索结果 - 1
多智能体模仿学习:价值易得,遗憾难求
协作学习中的多智能体模仿学习问题,以减小学习者和专家之间的价值差为目标,但无法保证对战略智能体的偏离具有鲁棒性。因此,研究了在马尔科夫博弈中以后悔差作为目标的代替方案,并提出了两种有效的方法来最小化后悔差。
PDF
a month ago
Prev
Next