Feb, 2022

全局思考,本地行动:面向视觉和语言导航的双尺度图形Transformer

TL;DR通过使用Dual-scale Graph Transformer(DUET)建立拓扑地图来平衡全局动作控制和局部语言理解的复杂性,在视觉动作规划领域,DUET明显优于现有研究成果,包括REVERIE、SOON和R2R。