Mar, 2024

利用预训练的视觉 - 语言模型和黑盒优化的烹饪机器人连续物体状态识别

TL;DR通过使用预训练的大规模视觉语言模型,我们提出了一种通过口语识别烹饪机器人中食物的持续状态变化的方法,并通过调整每个文本提示的权重,通过适应相似性变化到 sigmoid 函数并进行黑盒优化,实现了更准确和稳健的持续状态识别。通过对水煮沸、融化黄油、煮鸡蛋和炒洋葱的识别,我们展示了该方法的有效性和局限性。