模拟学者：具有图像扩散模型的即刻视觉环境学习

May, 2024

模拟学者：具有图像扩散模型的即刻视觉环境学习

Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model

Zheng Gu, Shiyuan Yang, Jing Liao, Jing Huo, Yang Gao

TL;DR通过使用在图像修复中预训练的文本到图像扩散模型，我们提出了 Analogist 作为一种新颖的推理型视觉上下文学习方法，旨在利用视觉和文本提示技术，提高任务的泛化能力和上下文感知能力，从而在各种视觉任务中取得优越性能。

Abstract

visual in-context learning (ICL) has emerged as a promising research area due to its capability to accomplish various tasks with limited example pairs through analogical reasoning. However, training-based visual

visual in-context learning analogical reasoning visual and textual prompting techniques self-attention cloning gpt-4v's visual reasoning

发现论文，激发创造

走向更统一的上下文视觉理解

我们提出了一种新的具有多模态输出功能的视觉理解的上下文学习框架，通过将文本和视觉提示量化和嵌入到统一的表示空间中，并采用仅具有解码器的稀疏 Transformer 架构在其上执行生成建模。实验结果表明，我们的模型在统一的多模态管线中实现了与专门模型和先前上下文学习基准模型相竞争的性能。总体而言，我们的研究在统一多模态上下文学习方面迈出了进一步的一步。

Dec, 2023

大规模视觉语言模型的视域内学习

通过引入一种新颖的视觉上下文学习方法（VICL），包括视觉演示检索、目标导向图像摘要和目标导向演示组合，解决了大型视觉语言模型（LVLMs）中上下文学习的挑战，提高了效果，并且进一步调查了演示文本长度和位置对 LVLM 的影响，展示了 ICL 复位特定模型知识的潜力。

Feb, 2024

面向视觉与语言模型的多模态上下文学习

通过对一些最先进的 VLM（Visual Language Model）进行分析，我们发现它们在执行 ICL（In-Context Learning）指令时存在一定的不足。为了验证这个猜想，我们提出了一种简单但令人惊讶地有效的策略，通过扩展一个常见的 VLM 对齐框架，实现 ICL 支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解，从而显著提升了 21.03% 的 ICL 表现（平均 11.3%），超过了最强 VLM 基线和多种 ICL 基准，并为 VLM 的 ICL 评估贡献了新的基准，并讨论了它们相对于现有技术的优势。

Mar, 2024

Im-Promptu: 基于图像提示的上下文组合

本研究探讨了模拟推理对于在可组合元素的视觉刺激下的情境组合的学习的作用，并提出了一个名为 Im-Promptu 的元学习框架，用于训练多个具有不同组成水平的代理。实验揭示了推广能力和组合度之间的权衡，可以扩展学习到的组合规则到看不见的域，但在组合任务上表现不佳。集中于对象的标记方法配合交叉注意模块生成一致和高保真的解决方案，这种感性偏见特别关键。最后，我们展示了 Im-Promptu 作为图像生成的直观编程界面的用例。

May, 2023

图像中的视觉语言：上下文视觉学习的通用画家

本文提出了 Painter，这是一种通用的视觉模型，采用 “图像为中心” 的解决方案，其将核心视觉任务的输出重新定义为图像，并将任务提示指定为图像，使模型能够执行基于可见图像补丁的任务，从而比许多现有的特定任务模型表现更好。

Dec, 2022

单幅图像中的一切：大型多模态模型是图像学习器

该论文介绍了一种新的上下文学习机制 ——In-Image Learning（I²L），将示范示例、视觉线索和指令结合到一张图像中，以增强 GPT-4V 的能力，并通过图像处理、理解和推理能力来整合所有信息，从而避免了复杂图像的文本描述不准确、位置示范示例灵活、输入负担减少、避免多张图像和冗长文本的输入限制等优势。通过引入自动策略选择适当的 ICL 方法，我们进一步整合了不同 ICL 方法的优势，对 MathVista 和 Hallusionbench 进行了实验，测试了 I²L 在复杂多模态推理任务中的有效性以及对语言幻觉和视觉错觉的缓解作用，并探讨了图像分辨率、示范示例数量和位置对 I²L 有效性的影响。我们的代码公开可用于此 https 网址。

Feb, 2024

ICAL: 将轨迹转化为可行动洞见的多模态智能体的持续学习

我们提出了一种名为 In-Context Abstraction Learning（ICAL）的方法，通过从次优演示和人类反馈中构建多模态体验洞察记忆，将 VLMs 将轨迹抽象为一个通用程序，显著提高了检索增强的 LLM 和 VLM 代理的决策能力。

Jun, 2024

通过对抗性内上下文学习进行提示优化

我们提出了一种新的方法，Adversarial In-Context Learning (adv-ICL)，通过使用一个 LLM 作为生成器，另一个作为鉴别器，以及第三个作为提示修改器来优化背景学习中的提示。我们表明，adv-ICL 在包括摘要、算术推理、机器翻译、数据生成和 MMLU 和 big-bench 难度基准等 11 个生成和分类任务上，相对于最先进的提示优化技术取得了显著的改进。此外，由于我们的方法使用预训练模型，并且仅更新提示而不是模型参数，它在计算上是高效的，易于扩展到任何 LLM 和任务，并且在资源有限的环境中是有效的。

Dec, 2023

全球最佳视觉上下文学习提示选择

通过提出一种新颖的上下文示例选择框架 Partial2Global，使用基于 transformer 的列表式排序器和一致性感知的排序聚合器，本研究在前景分割、单对象检测和图像上色等任务上验证了其有效性，并与其他方法进行了比较，提出了新的科学研究前沿。

May, 2024

Auto-ICL: 无人监督的上下文学习

在大语言模型时代，人机交互朝着自然语言发展，提供了前所未有的灵活性。然而，大语言模型在上下文学习领域内高效运行往往依赖于结构良好的提示。为了解决这一挑战，我们的研究提出了一个名为自动上下文学习的通用框架。在接收到用户的请求后，我们要求模型自主生成示例，包括标签、说明或推理路径。然后，模型利用这个自产的上下文来解决给定的问题。我们的方法具有普适性，可在适用于普通上下文学习的任何环境中实施。我们展示了我们的方法在一系列任务中取得了强大的性能，并与现有方法相比表现出色。

Nov, 2023