促进文本理解的 Venn 图提示:扩展支持效应
我们介绍了 Draw-and-Understand 项目,其中包括一种新的多模域数据集和一种具有挑战性的视觉提示基准测试。我们提出了 SPHINX-V,一种新的端到端训练的多模域大型语言模型,用于连接视觉编码器、视觉提示编码器和语言理解模型,以实现各种视觉提示和语言理解。同时,我们还提出了 MDVP-Data 和 MDVP-Bench,用于促进多模域大型语言模型中的视觉提示研究,并提供了多领域数据集和具有挑战性的基准测试。我们的实验结果表明,SPHINX-V 通过视觉提示展现出了卓越的多模交互能力,并在详细的像素级描述和问答能力方面取得了显著的改进。
Mar, 2024
在这项工作中,我们通过提出提示素描的新提示范式来解决使用序列查询大型语言模型 (LLMs) 的许多最近提示策略中存在的问题,该模型不仅通过完成提示来回答,而是通过在模板中预测多个变量的值来回答,从而使用户在生成过程中具有更多的控制,同时优化推理中整体模板的可能性。
Nov, 2023
本文旨在研究使用预训练语言模型(Pre-trained language models,PLMs)作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting(DVP)的新型转移学习方法,通过搜索算法,在保持 PLMs 参数完整性的情况下,有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证,DVP 在效率和性能方面都具有优势,并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。
Jun, 2023
大规模视觉语言模型(VLMs)在自然视觉任务中表现出色,推动跨领域的研究者探索特定领域的 VLMs。然而,构建强大的特定领域 VLMs 需要大量的注释数据、大量的电能和计算资源,这些主要是工业界可用的,却制约了学术界对 VLMs 的研究。为了解决这个挑战,促进可持续和公平的 VLMs 研究,我们提出了广义领域提示学习(GDPL)框架。GDPL 通过小规模的特定领域基础模型和最少的提示样本,使 VLMs 的强大识别能力从自然视觉转移到特定领域,而无需大量数据或资源。通过四元网络,GDPL 利用特定领域的基础模型和最少的提示样本为语言分支赋予领域知识,揭示特定领域视觉特征与自然视觉上下文嵌入之间的跨模态关系。同时,GDPL 通过生成的视觉提示特征的分层传导,将视觉分支引向特定领域,建立与视觉语言关系匹配的基础。此外,为了充分发挥 VLMs 的领域自适应潜力,我们引入了一种新颖的低秩自适应方法。对遥感、医学成像、地质学、合成孔径雷达和流体动力学等不同领域的大量实验证明了 GDPL 的有效性,并展示了在提示学习范式下实现最先进的领域识别性能的能力。我们的框架为可持续和包容性的 VLMs 研究铺平了道路,消除了学术界与工业界之间的障碍。
May, 2024
提出了一种 Scaffold 提示方案,通过在图像中覆盖点矩阵作为视觉信息锚点,并利用多维坐标作为文本位置参考,以促进视觉 - 语言协调,实验证明其在复杂的视觉 - 语言任务中优于 GPT-4V 与文本的 CoT 提示。
Feb, 2024
为了弥补视觉和语言模态之间的差距,我们提出了 prompt-aware 适配器,这些适配器根据提示的特定焦点动态嵌入视觉输入,以从提示中捕捉到最相关的视觉线索,从而显著增强了大型语言模型理解和解释视觉内容的能力。实验表明 prompt-aware 适配器在各种视觉问答任务(如计数和位置推理)中的有效性。
May, 2024
Prompt4Vis 是一种利用大型语言模型和上下文学习来增强从自然语言生成数据可视化查询的性能的新型框架,通过在 NVBench 数据集上进行广泛实验,明显优于最先进的 RGVisNet 约 35.9% 和 71.3%。
Jan, 2024
利用大语言模型在现代教育领域创新的机会,通过研究提问型大语言模型、语法错误解释和人力资源面试评估,揭示了大语言模型在改变教育实践中的潜力和限制。
May, 2024
大型语言模型(LLM)在理解和生成文本数据方面非常强大,但容易出错。本文提出了一种声明性提示工程方法,将 LLM 视为众包工作者,并借鉴了声明性众包文献的思想,包括多种提示策略、确保内部一致性和探索混合 LLM - 非 LLM 方法,使提示工程过程更加有原则。在排序、实体解析和插补方面的初步案例研究展示了我们方法的优势。
Aug, 2023