ICLRFeb, 2020

监督与自我对弈在新兴通讯中的相互作用

TL;DR本研究探讨了一种新的教授人工智能代理人使用自然语言的方法,发现在通过受监督的学习奖励和自我对弈的信号两种方式的训练后比直接从头开始进行自我学习效果更好,并提出了一种基于人群的方法以进一步提高表现。