Jun, 2023

KITE:基于关键点条件的语义操作策略

TL;DR提出了一个基于Keypoints + Instructions to Execution (KITE) 的两步框架用于实现语义操作, 首先通过2D图像关键点将输入指令与视觉场景关联,然后通过学习到的关键点条件技能执行指令,其中keypoints和参数化技能的组合使得对场景和物体变化的细粒度操控具有泛化能力。