Jun, 2024

使用卷积注入器适应预训练ViTs的视觉动作控制

TL;DR使用Convolution Injector(CoIn)给训练有素的Vision Transformers(ViTs)注入富含局部性和等变性的卷积,提高其在视觉运动控制方面的适应性和性能。