EMNLPApr, 2021

语言模型是少样本学习的管家

TL;DR使用预训练语言模型和简单的强化学习算法,无需大量专家示范即可在文本环境中操作并取得 51% 的成功率改进。