- Transcrib3D:通过大型语言模型解决 3D 指示表达
如果机器人要与人类有效地共同工作,它们必须能够解释其 3D 环境中的物体的自然语言指示。Transcrib3D 是一种结合了 3D 检测方法和大型语言模型(LLMs)新兴推理能力的方法,通过使用文本作为统一介质,绕过了学习连接多模态输入的共 - 基于属性的人机交互中的组合式零样本学习
我们实现了一种基于属性的组合零样本学习方法,用于在开放世界中通过一系列属性执行指代表达式理解,初步实验结果表明我们的方法使机器人能够正确识别人类命令所指的对象。
- 参考生成模型:如何经受时间的考验?
近年来,许多自然语言处理(NLP)的研究主要关注于性能改进。本文通过在上下文中生成指代表达式(REG-in-context)的任务作为案例研究,聚焦于 NLP 的语言和科学方面。我们对 GREC 进行分析,这是一个十多年前在英语中解决这个主 - CVPR运用场景知识推进视觉连接:基准与方法
本文提出了一个新的基准数据集 SK-VG,其中图像内容和指代表达不足以确定目标对象,迫使模型在长篇场景知识上具备推理能力。我们提出了两种方法来接受三元类型的输入,前者在图像查询交互之前将知识嵌入图像特征,后者利用语言结构来辅助计算图像文本匹 - OmniLabel: 一项挑战性的基于语言的物体检测基准测试
提出了新的任务定义、数据集和评估指标,包括标准和开放词汇检测以及引用表达式。OmniLabel 是具有挑战性的基准,具有多样化的复杂对象描述,并且是一个自然的开放词汇环境下的难点。评估使用经过修改的平均精度度量,通过评估强大的基线来验证.
- 指称表达的弱监督分割
本文提出基于 Transformer 模型的弱监督语义图像分割方法 Text Grounded Semantic Segmentation (TSEG),通过学习从图像级别的文本语句直接生成分割掩模,实现了从提及的表达式中进行图像分割,实验 - 正式化 HRI 数据收集过程
本文旨在探讨机器学习模型训练的数据收集过程,介绍了一种基于最新文献的三步数据收集方法,并以口头表达语料库的收集为例进行说明,设计任务环境及任务本身,鼓励参与者丰富和充分的输出,希望本工作能够鼓励更多的 HRI 社区展开数据收集的正式努力,并 - ACL非神经模型也很重要:对神经指代表达生成系统的重新评估
本文旨在在生成语言上考虑基于非神经网络模型的表现,以推广广义的自然语言生成技术,并在针对两个数据集的实验中发现,某些任务使用非神经网络模型能够比神经模型获得更好的性能。
- RefVOS:关注视频对象分割中的指代表达
本研究提出了一种新的分类方式,评估了现有基准用于语言引导视频对象分割的任务,并分析了一个新型神经网络(RefVOS)在该任务上的表现。研究结果显示,理解视频中的动静作用是该任务的主要挑战。
- CLOSURE: 评估 CLEVR 模型的系统泛化能力
本文研究了当前用于处理 CLEVR 数据集的一些模型的泛化,提出了一种基于闭包基准测试的方法,结果显示,当前流行的模型在处理普遍化方面往往表现不佳;作者提出了一种新的向量模块神经网络体系结构,能够增强 NMN 模型的系统性泛化能力,并且研究 - 12 合 1:多任务视觉和语言表示学习
本篇文章通过开发一个大规模、多任务训练体系,研究了不同任务之间的相互关系,提出了一个单一模型,可以在视觉问题回答、基于标题的图像检索、引用表达和多模态验证等四个广泛的任务范畴下,同时取得以往 3 亿多参数内单一任务模型的总和,且性能提高了 - 基于标题感知的指代表达式物体分割
本文介绍了一种通过端到端可训练的理解网络,由语言和视觉编码器组成,从语言和图像领域提取特征表示,提出了空间感知动态滤波器来转移文本到图像的知识并有效捕获指定对象的空间信息,并采用生成的字幕网络来加强语言和视觉模块之间的通信以及改进两者的表示 - CVPR通过可变上下文将指代表达式与图像联系起来
本文提出了一种变分贝叶斯方法,名为变分语境,用于解决指代表达的复杂上下文建模问题,在具有监督学习和无监督学习的情况下对各种基准进行广泛实验,都得到了优秀的结果。
- ICCV用于参考图像分割的循环多模态交互
本研究探讨了自然语言描述下图像分割的问题,提出了基于卷积多模态 LSTM 编码单词、视觉和空间信息的序列交互的方法,并在基准数据集上展示出了其比基准模型更好的性能。
- 指代表达的联合发话人 - 听话人 - 强化模型
本文提出了一种统一的方案,包括三个模块,即发言者、侦听器和强化程序,用于指代表达的理解和生成任务。训练过程采用端到端深度学习框架,并加入了强化程序的反馈,取得了在三个指代表达数据集上表现最佳的结果。
- 利用大规模视觉和文本数据集进行指称表达式的图像分割
本文提出了一种利用现有大规模视觉和文本数据集进行基于语言的图像分割模型训练的方法,并证明该方法可以帮助实现该任务并优于以前的结果。
- ECCV为指称表达理解建模物体间的语境关系
提出了一种技术,该技术通过整合对象之间的上下文来理解指代表达式,使用 LSTM 学习指代表达式的概率,并利用多示例学习 (MIL) 方法发现上下文区域,使用最大边际 MIL 目标函数训练 LSTM,实验结果表明,与仅建模对象属性相比,建模对 - 视觉场景的基于语义 grounded 语义构成
本篇研究介绍了一种基于视觉语言理解模型的单词语义组合来生成复杂指代表达式的理论,介绍了其在空间指代表达式中的应用及在语义理解中对视觉语境的影响研究。
- 生成指称表达中 Grice's Maxims 的计算解释
本文主要研究生成明确名词短语的问题,即生成既成功地识别听者预期的指称,同时又不传达任何虚假的谈话含义,探讨了几种可能的谈话含义的计算解释,并辩称最简单的算法可能是最好的,因为它似乎最接近人类说话者所做的。我们详细描述了我们推荐的算法,并给出