- VELOCITI:视频语言模型能否通过时间连接语义概念?
VELOCITI 是一个基于复杂电影剪辑和密集的语义角色标签注释的新基准,用于测试视频语言模型的感知和绑定能力,结果显示当前最先进的模型在感知测试上表现得相当好,但在绑定测试上的准确性接近随机,表明它们在绑定测试中失败。
- CVPR探索视觉语言组合性和识别的光谱
研究了视觉和语言模型领域的复杂关系,特别是在语言理解和细粒度图像与文本对齐方面,探索并评估了现有的 VLMs,在组合性和识别准确性之间的模式和权衡,提出了改进两者能力和基准的策略性努力的必要性。
- 关于组合性和递增学习的二阶视角
对深度预训练模型进行微调最近揭示了其具有组合特性能力,从而使得多个专门模块能任意组合成一个多任务模型。本文通过对损失函数的二阶泰勒近似方法进行理论研究,试图揭示标准非线性网络中组合特性的奥秘,强调了处于预训练盆地内对于实现可组合模块的重要性 - 从 Frege 到 chatGPT:语言、认知和深度神经网络中的组合性
人工智能中的大型语言模型和深度神经网络通过学习组合性处理和元学习的方式,展示了复杂的认知行为,为人类认知研究提供了新的视角和可能性。
- 成语处理中的质量、数量和语境:少即是多吗?
通过在公共领域图书文本中替换可能成语化的英语名词复合词的同义词,我们创建了名词复合同义词替换数据集,探讨了用于成语性检测模型训练时数据数量和质量之间的平衡,同时考虑了从周围句子中获取的上下文信息和从语言资源中获取的外部信息。成语性检测任务的 - IJCAI模型的组合性是由什么决定的?一个理论视角:附加材料
本文旨在理解语言中组成性结构在模型失败中的作用以及与其表达能力和样本复杂度的关系,并提出了一种神经符号化的组成性函数及其复杂性的定义,并分析了各种现有的通用和特殊目的序列处理模型在该定义下的组成性复杂性,最后基于提出的定义给出了显式地依赖于 - SPARO:用于视觉的稳健和组合式 Transformer 编码的选择性注意力
我们提出了 SPARO,一个将编码分为单独参与的槽位,从而改进了 CLIP 在下游识别、鲁棒性、检索和组合性基准上的性能,并在 DINO 的 ImageNet 中实现了改进。
- FINEMATCH:基于方面的细粒度图像与文本不匹配检测与校正
提出了 FineMatch,一种新的面向细粒度文本和图像匹配的方面研究和评估 VLMs 组合性的基准,通过引入一个新的任务来检测和纠正文本和图像不匹配,对现有的主流 VLMs 进行了全面的实验分析。
- HAMMR: 分层多模态反应智能代理程序用于通用 VQA
利用大型语言模型(LLMs)与外部专用工具(LLMs+tools)相结合是解决多模态任务(如视觉问答)的最新范式。本研究以统一的视角提出 VQA 问题,并在包括计数、空间推理、OCR-based 推理、视觉指向、外部知识等各种 VQA 任务 - CVPR迭代学习在大型视觉语言模型中提高组合性
通过引入一种新的迭代训练算法,以文化传播作为归纳先验,本研究以视觉代理和语言代理之间的 Lewis 信号游戏重新定义了视觉 - 语言对比学习,并通过在训练过程中迭代重置代理权重的方式实现文化传播,使得模型对于合成语言的特性变得更易于学习,达 - 通过机器人的交互学习语言和行动发展组成性和泛化能力
通过基于自由能原理的预测编码和主动推理框架,将视觉、本体感知和语言集成到一个受脑启发的神经网络模型中,通过多种模拟实验及机械臂的测试,研究表明,在增加任务组合的变异性时,对于学习未知的动词 - 名词组合的泛化能力得到了显著提升,这归因于语言 - 概念最佳匹配:评估新兴沟通中的组合性
通过找出新出现的词和自然语言概念之间的最佳匹配,我们提出了一种评估新兴的通信的组成性的方法,这是第一次提供新出现词和人类概念之间直接可解释的映射。
- L+M-24:构建 ACL 2024 的语言 + 分子数据集
通过为 ACL 2024 的 Language + Molecules Workshop 共享任务创建的 L+M-24 数据集,详细介绍了语言 - 分子模型的三个关键优势:组合性、功能性和抽象性。
- 掌握文本到图像扩散:多模态 LLM 的重新字幕、规划和生成
提出一种全新的基于训练自由的文本到图像生成 / 编辑框架 RPG,该框架利用多模态 LLMs 的强大联想推理能力,提高了文本到图像扩散模型的组合性,并在多类别对象组合和文本 - 图像语义对齐方面优于 DALL-E 3 和 SDXL 等最先进 - 语言模型的哲学导论 -- 第一部分:与经典辩论的连续性
大型语言模型,如 GPT-4,在广泛的基于语言的任务中取得了显著的熟练度,这些任务中有些传统上与人类智能的标志相关联。这引发了关于我们能否将任何语言模型归属于语言或认知能力的程度的持续争议。本文是两篇相关论文的第一部分,旨在为哲学家提供关于 - 文本与图像合成对比性组合基准:统一文本与图像保真度指标的研究
Winoground-T2I 是一个用于评估 T2I 模型组成性的基准,通过包含 11K 个复杂、高质量的对比句对来进行评估,通过比较性句对来评估各种指标的可靠性,最后提供了关于指标的优点和缺点以及当前 T2I 模型在应对复杂组成类别挑战中 - 一个研究合成的、可解释任务中 Transformer 能达到的能力水平
通过对一系列广泛而系统的实验,本文展示了:(1)自回归 Transformer 模型可以学习训练数据中的组合结构,并能够推广到指数甚至组合数量的函数;(2)通过生成中间输出来组合函数比不生成中间输出更有效地推广到未见过的组合;(3)训练数据 - 机器学习中的代数动力系统
引入了一种基于术语重写的动力系统的代数模拟,证明了递归函数应用于迭代重写系统的输出定义了一类模型,其中包括循环神经网络、图神经网络和扩散模型等所有主要的动态机器学习模型架构。从范畴论的角度来看,这些代数模型也是描述动态模型组成性的一种自然语 - 复合能力呈现出乘法效应:在合成任务上探索扩散模型
通过对条件扩散模型的控制实验研究,我们发现生成模型在组合推理任务上的性能是突然出现的,其组合能力取决于底层数据生成过程的结构,并在生成非分布样本时需要更多的优化步骤。
- 衡量视觉语言模型的语言先验在组合推理中的作用
我们识别了视觉 - 语言组合性的两个源头:语言先验和图像与文本之间的相互作用。我们展示了当前改进组合泛化的尝试依赖于语言先验而非图像信息,并提出了一个不依赖语言先验的组合性新度量标准。