Oct, 2023

AMAGO:面向自适应代理的可扩展上下文强化学习

TL;DRAMAGO是一个上下文强化学习代理,使用序列模型解决泛化、长期记忆和元学习的挑战,通过重新设计离策略上下文方法,能够训练长序列Transformer以整合端到端强化学习,在元强化学习和长期记忆领域展现出强大的实证性能,并且在稀疏奖励和离策略数据方面的专注使得上下文学习能够扩展到具有具有挑战性探索要求的目标条件问题。