视觉编程的神经任务合成
研究使用 AI 驱动的编程导师协助编程初学者,其中关键组成部分为学生建模,能自动推断学生的误解以预测(综合)他们的行为,并介绍了一个新的基准 (StudentSyn),以综合一个给定学生的目标任务尝试,探究如何使用神经 / 符号技术来实现。
May, 2022
本文提出了一种新的算法来为给定的基于块的视觉编程任务生成一系列高质量的子任务,其解决方案相互依赖,从而解决给定的任务,通过这种算法使得 AI 代理能够更有效地执行任务,同时也可以帮助初学者解决编程任务。
May, 2023
VISPROG 是一种神经符号方法,用于解决复杂和组合的视觉任务,所需的仅是自然语言指令,通过生成类似 Python 的模块化程序来实现,每行程序可以调用各种计算机视觉模型,图像处理算法或 Python 函数以产生中间输出,展示了其在 4 个不同的任务上的灵活性 。
Nov, 2022
本文提出了一种可扩展的程序合成框架,通过层级组合程序实现程序合成,该框架可以从输入 / 输出对中合成比之前更长、更复杂的程序,并通过任务嵌入空间和程序解码器将任务嵌入解码为程序。
Mar, 2023
通过使用大型语言模型 (Large Language Models),我们提出了一种生成性神经符号化视觉推理方法,在模块初始化和执行的阶段,通过生成和复用模块来处理视觉 - 语言任务。该方法表现出优越的性能,能够在标准任务中进行竞争,并能够无缝地将学习到的模块转移到新任务中。
Nov, 2023
从少数示例中抓取灵活的视觉概念。我们探索了一种神经符号系统,该系统学习如何推断以通用方式捕捉视觉概念的程序。我们引入了模板程序:来自特定领域语言的程序表达式,用于指定输入概念中的结构和参数模式。我们的框架支持多个与概念相关的任务,包括通过解析进行少数示例生成和共分割。我们开发了一种学习范式,使我们能够从包含概念分组的视觉数据集中直接训练推断模板程序的网络。我们在多个视觉领域进行实验:2D 布局,Omniglot 字符和 3D 形状。我们发现我们的方法优于特定任务的替代方案,并在存在有限领域特定方法的领域中表现出有竞争力。
Mar, 2024
该研究使用大型语言和多模态模型,针对具备空间规划、基础编程和逻辑推理等不同技能要求的 Mini-level 任务,在 XLogoOnline 可视化编程环境下构建了一个新型的程序合成基准。通过使用大规模的合成训练数据集和模拟器驱动的反馈,开发了一个微调流程以提升模型的性能。研究表明,经过微调的 Llama3-8B 模型在不同技能维度上显著优于 GPT-4V 和 Llama3-70B 模型,并提供了对模型在不同技能维度上的专业知识的深入分析。该研究将公开发布该基准,以促进未来在可视化编程的程序合成领域的研究。
Jun, 2024
本文介绍一种用于程序自动合成的方法,通过结合模式识别和显式推理来解决这些复杂的编程问题,同时使用新颖的中间表示和训练算法,使程序合成系统能够自学,从而在简单的英文描述编程问题数据集上取得了最先进的性能表现。
Feb, 2019
本文提出了一种 Neuro-Symbolic Program Synthesis 技术,通过计算机程序自动构建特定领域的语言。我们通过使用两种新颖的神经模型,交叉相关的 I/O 网络和递归反向递归神经网络,证明了该方法的有效性。
Nov, 2016