Feb, 2025

可证明的视觉-语言预训练中的顺序性和连续性,用于可泛化的具身智能体

TL;DR本研究针对现有视觉-语言预训练方法中因过度关注未来帧而导致的视觉-语言关联错误问题,提出了一种新颖的动作时间连贯性学习方法(AcTOL)。这一方法通过对视频帧的自然顺序进行语义对比学习,同时实现了平滑过渡,显著提升了下游操作任务的性能,增强了对不同语言风格指令的鲁棒性,推动了可泛化的具身智能体的发展。