ACLMay, 2022

评估具身代理模型泛化能力的限制:基于验证集

TL;DR研究提出了一种使用自然语言引导体现任务完成的模型,使用模块在更广阔的视野范围内学习选择下一步是否需要导航或操作,改进了现有基准数据集 ALFRED 上的表现。但是,最优模型在未见过的测试集分裂上表现不佳,突出了在机器学习任务中性能波动的需要修改基准设计以更好地考虑模型性能差异的需求。