Sep, 2022

离线强化学习能助力自然语言理解吗?

TL;DR本论文旨在探究离线强化学习和语言建模之间的潜在关系,通过使用 Transformer 模型对不同的离线强化学习任务进行预训练,并在各种与语言相关的任务上进行评估,结果表明,与使用语言建模的模型相比,我们的 RL 预训练模型具有接近的性能,从而验证了这两种模态之间存在着共同的有用特征,进一步探索了如马尔可夫性和 RL 轨迹的顺序性等因素的潜在关系。