Jun, 2024
面对未知环境的常见物体错误:ET tu, CLIP?
ET tu, CLIP? Addressing Common Object Errors for Unseen Environments
Ye Won Byun, Cathy Jiao, Shahriar Noroozizadeh, Jimin Sun, Rosa Vitiello
TL;DR使用预训练的 CLIP 编码器通过辅助目标检测目标,在 Episodic Transformer 架构中整合 CLIP 可以提高 ALFRED 任务的性能,并且尤其有助于利用物体描述、检测小物体和解释罕见词汇。