Mar, 2024

离线强化学习在视觉和语言导航中的扩展

TL;DR通过使用次优示范数据进行视觉语言导航 (VLN) 的离线强化学习 (ORL) 研究,引入了一种简单且有效的奖励条件方法来训练 VLN 代理,并在该领域推动研究进展和评估。实验证明,即使在复杂和复杂的环境中,所提出的奖励条件方法也能显著提高性能。