ECCVJul, 2022

将视觉乐高手册翻译成可执行机器计划

TL;DR本文研究的是将由人设计师创建的基于图像的逐步组装手册翻译成为机器可解释指令的问题,采用一种基于学习的框架,即 MEPNet,该框架通过对逐步手册图像序列的重建来重建组合步骤,通过神经网络的 2D 关键点检测模块和 2D-3D 投影算法来预测 3D 姿态。