ICLRMay, 2017

多智能体游戏中语言的出现:学习使用符号序列进行沟通

TL;DR通过玩转指代博弈,研究者们发现使用可微分方式(ST Gumbel-softmax estimator)的强化学习方法能够有效地解决学习沟通的问题,从而使得交互遵循自然语言的组成性和可变性。