Jun, 2018

通过观察自我对弈增强学习现有社会惯例

TL;DR研究了在协调博弈中,人工智能代理人如何通过多智能体强化学习和模仿学习来优化策略以满足现有社交约定。结果表明,使用少量模仿学习可以显著提高多智能体强化学习找到与现有社交约定相符的策略的概率。