利用自我训练大型语言模型改进视觉程序合成与视觉强化

CVPRApr, 2024

利用自我训练大型语言模型改进视觉程序合成与视觉强化

Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement

Zaid Khan, Vijay Kumar BG, Samuel Schulter, Yun Fu, Manmohan Chandraker

TL;DR利用交互式经验反馈改进大规模语言模型的视觉程序合成能力，通过利用现有的视觉语言任务注释为该任务创造一个粗略的奖励信号，将语言模型作为一种策略，并应用增强的自训练，显示出在对象检测、复合视觉问答和图像 - 文本检索方面，经过自训练的语言模型在每种情况下优于或与量级更大的少样本冻结的语言模型相媲美。

Abstract

visual program synthesis is a promising approach to exploit the reasoning abilities of large language models for compositional computer vision tasks. Previous work has used →

visual program synthesis reasoning abilities compositional computer vision tasks few-shot prompting reinforced self-training

发现论文，激发创造

大型语言模型用于上下文学生建模：从一次性观察中合成学生在视觉编程中的行为

利用大型语言模型在开放式学习环境中进行学生建模，引入了一种新的框架，LLM-SS，该框架利用 LLMs 来合成学生的行为，并使用领域专业知识对 LLMs 进行微调，以提高对领域背景和学生行为的理解，实验证明在学生尝试合成基准中与基线方法相比有显著改进，并且使用经过微调的 Llama2-70B 模型的方法与使用最先进的 GPT-4 模型相当。

Oct, 2023

什么是好的视觉指导？为视觉指导调整综合复杂视觉推理指导方法

通过对复杂视觉推理任务进行重点指导，我们设计了一个系统性的方法来自动创建高质量的复杂视觉推理指导，实验证明我们的数据集显著提高了所有比较的多模态大型语言模型的性能。

Nov, 2023

Synth$^2$: 用合成标题和图像嵌入提升视觉 - 语言模型

我们提出了一种利用大语言模型（LLM）和图像生成模型的优点来创建合成图像 - 文本对的新方法，以用于视觉语言模型（VLM）的高效训练。通过预训练一个文本到图像模型来合成由 LLM 生成的图像嵌入，我们的方法能够用合成数据训练出仅需使用人工标注数据一小部分的 VLM，并在图像字幕任务中展现出相当的性能。此研究为生成大规模、可定制的图像数据集引入了一项有前景的技术，从而提升了 VLM 性能，拓展了其在各个领域中的适用性，并改善了数据效率和资源利用。

Mar, 2024

朝着真正无需零样本的组合视觉推理：以 LLMs 为程序员

通过引入空间和时间抽象例程以及利用少量标记示例自动生成上下文例子，我们提出了一个框架来消除人为构建的上下文例子，从而解决了可视推理中的一些问题并提升了性能。

Jan, 2024

通过知识检测自我训练大型语言模型

该论文研究自训练范式，其中大型语言模型 (Large language models, LLMs) 通过自主策划标签并选择性地在未知数据样本上训练，以显著改善多个主题中生成中的虚构问题。此外，选择性训练框架在处理超出分布基准的灾难性遗忘时具有重要意义，解决了训练 LLMs 过程中的关键限制。我们的研究结果表明，这种方法可以大幅减少对大规模标记数据的依赖，为更可伸缩和经济有效的语言模型训练铺平了道路。

Jun, 2024

利用图像理解的自我训练增强大型视觉语言模型

采用自我训练方法提高大型视觉语言模型在图像理解方面的能力，通过自动生成偏好图像描述来构建图像理解的偏好数据集，利用少量的现有数据进行自我改进，验证了其在七个不同基准测试中的有效性和潜力。

May, 2024

校准的自我奖励视觉语言模型

大规模视觉 - 语言模型通过整合预先训练好的大型语言模型和视觉模型，通过自我奖励方法中引入视觉约束以减少幻觉，提高性能，在十个基准测试和任务中取得了 7.62% 的显著改进。

May, 2024

基于大语言模型的全自动编程

本文探讨了使用 Large Language Models 进行程序合成时，实现 Synthesize，Execute，Debug 方法的方法，包括替换或修复故障程序，以及不同基于模板和基于模型的提示生成技术，取得了比传统方法更好的表现。

Apr, 2023

利用语法和强化学习进行神经程序合成

本文提出了两种新的方法来解决程序合成中的限制，分别通过增加语义正确生成的概率和语法正确的程序的概率来解决。

May, 2018

视觉语言模型为强化学习提供可提示的表示

通过利用背景世界知识，人类能够快速学习新的行为方式。相比之下，强化学习训练的代理通常需要从零开始学习行为。因此，我们提出了一种新的方法，利用基于视觉语言模型（VLMs）的通用世界知识和可索引知识，这些模型在互联网规模的数据上进行预训练，用于实体强化学习。我们通过将 VLMs 用作可提示的表示方式来初始化策略：通过提示提供任务背景和辅助信息，这些嵌入基于视觉观察进行了接地，并编码了 VLM 的内部知识的语义特征。我们在 Minecraft 中的视觉复杂、长期的强化学习任务以及 Habitat 中的机器人导航任务上评估了我们的方法。我们发现，与从通用的非可提示图像嵌入训练的等效策略相比，我们基于通用 VLMs 提取的嵌入的训练策略表现更好。我们还发现，我们的方法优于遵循指令的方法，并与特定领域的嵌入方法效果相当。

Feb, 2024