Nov, 2022

视觉编程:无需训练的构成性视觉推理

TL;DRVISPROG 是一种神经符号方法,用于解决复杂和组合的视觉任务,所需的仅是自然语言指令,通过生成类似 Python 的模块化程序来实现,每行程序可以调用各种计算机视觉模型,图像处理算法或 Python 函数以产生中间输出,展示了其在 4 个不同的任务上的灵活性 。