Jan, 2022

Wikipedia 是否能帮助离线强化学习?

TL;DR本研究探索了将强化学习作为序列建模的一种形式,并研究了预训练序列模型在其他领域(视觉、语言)上进行细调时的可迁移性,同时提出了改善这些领域之间转移的技术。结果表明,在各种环境下加速训练 3-6 倍,并使用 Wikipedia 预训练和 GPT2 语言模型在各种任务中实现了最先进的表现。