Feb, 2024
DecisionNCE: 通过隐式偏好学习实现的具身多模态表示
DecisionNCE: Embodied Multimodal Representations via Implicit Preference
Learning
TL;DR通过多模态预训练方法,本论文提出了一种通用的统一目标,可以同时从图像序列中提取有意义的任务进展信息,并将其与语言指令无缝对齐,以提供一种优雅地提取本地和全局任务进展特征的实体化表示学习框架,通过隐式时间对比学习强制执行时间一致性,并通过多模态联合编码确保轨迹级指令定位,从而为统一的表示和奖励学习提供了多样化的解决方案。