- PropTest:自动性质测试以改进视觉编程
通过使用大型语言模型,我们提出了 PropTest 策略来改进可视化编程,这一策略可生成用于测试可视化属性的代码解决方案,提高可视化推理任务的性能和泛化能力。
- InstructPipe:利用人类指令构建视觉编程流水线
InstructPipe 是一种 AI 助手,通过文本指令帮助用户开始原型机器学习(ML)管道的构建,其技术评估表明,相较于传统方法,InstructPipe 减少了 81.1% 的用户交互,并通过用户研究(N=16)显示,Instruct - 递归视觉编程
通过递归的视觉编程方法来应对编码解决视觉问答任务,简化生成的代码、提供更高效的问题解决能力以及更好管理复杂的数据结构,并通过广泛实验验证了该方法的有效性。
- 零字参数开放词汇三维视觉定位的可视化编程
通过使用大型语言模型,我们提出了一种零样本开放词汇的三维视觉定位方法,使用独特的基于对话的方法和视觉程序模块,以及创新的语言 - 物体关联模块,在三维场景中实现了复杂推理,并扩展了现有三维物体检测器的应用范围,取得了显著的性能优势。
- De-fine: 图像程序的分解和精化与自动反馈
通过引入定义 (De-fine) 的模型无关方法,将复杂任务分解为简单子任务并通过自动反馈优化程序,从而提高逻辑推理性能,在多个视觉任务中实现更准确、更健壮的程序,创造了该领域的新纪录。
- VisualProg Distiller: 非可微视觉编程框架的微调学习
通过视觉编程(VisualProg)的过程精馏,我们提出了一种方法来优化每个 VisualProg 子模块的性能,从而提高整体任务性能,并在大规模数据集上进行了广泛而全面的实验评估。
- 评估 ChatGPT 和 GPT-4 在视觉编程中的应用
生成式人工智能和大型语言模型在计算机教育领域有潜力通过自动生成个性化反馈和内容来大幅改善情况。本文研究了这些模型在文本编程教育领域的能力,但是对于常用于 K-8 编程教育的可视化编程领域的性能尚未探究。本研究评估了 ChatGPT 和 GP - 视觉编程的神经任务合成
使用神经符号技术 NeurTaskSyn, 可以为给定的编程要求自动综合编程任务,可提高编程教育的质量。
- 文本到图像生成和评估的可视化编程
本文提出了两个基于语言模型的可解释 / 可解释的视觉编程框架,用于文本到图像的生成和评估。其中,VPGen 将 T2I 生成拆分成三个步骤,使用 LM 控制前两个步骤,并提供更强的空间控制;VPEval 是一个解释性和可解释性评估框架,基于 - 用于创建深度学习模型的可视化编程工具
本文介绍了 DeepBlocks 可视化编程工具,它可以帮助深度学习开发者在不需要使用特定编程语言的情况下设计、训练和评估模型,结果表明该工具可以帮助开发者可视化设计复杂的深度学习架构。
- PromptChainer:通过可视化编程连接大型语言模型提示
探索了基于 LLMs 的多次运行串联(即 chaining)的可视化编程过程,引入一个交互式界面 PromptChainer 来支持用户构建各种机器学习应用的原型。