Jun, 2024

面对未知环境的常见物体错误:ET tu, CLIP?

TL;DR使用预训练的 CLIP 编码器通过辅助目标检测目标,在 Episodic Transformer 架构中整合 CLIP 可以提高 ALFRED 任务的性能,并且尤其有助于利用物体描述、检测小物体和解释罕见词汇。