Oct, 2024

视觉-语言-动作模型与扩散策略切换实现类人手灵巧控制

TL;DR本研究解决了自主灵巧操作中的模型切换问题。通过结合视觉-语言-动作(VLA)模型与扩散模型,提出了一种新颖的混合控制方法,实现高层次语言指令规划与低层次精确操作间的灵活切换。实验结果表明,该方法在抓取和放置任务中成功率超过80%,显著优于仅使用VLA模型时不到40%的成功率。