Feb, 2022
全局思考,本地行动:面向视觉和语言导航的双尺度图形Transformer
Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation
TL;DR通过使用Dual-scale Graph Transformer(DUET)建立拓扑地图来平衡全局动作控制和局部语言理解的复杂性,在视觉动作规划领域,DUET明显优于现有研究成果,包括REVERIE、SOON和R2R。