基于空间表达的视觉对话的语言分析
文章提出了一种弱监督方法,该方法以图像 - 句子对为输入,学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型,使用两种精心设计的损失函数学习短语的视觉基础,并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。
May, 2017
本篇研究介绍了一种基于视觉语言理解模型的单词语义组合来生成复杂指代表达式的理论,介绍了其在空间指代表达式中的应用及在语义理解中对视觉语境的影响研究。
Jun, 2011
利用大规模视觉语言模型评估其在不同视觉推理任务中的性能,特别是在理解空间关系方面的能力的研究。通过细粒度的组合性先验来解决空间关系推理任务的评估和排名,结合物体及其位置的核心语义来计算空间子句的最终评分,并比较不同视觉语言模型在空间关系推理方面的能力。
Aug, 2023
本文介绍了 PhotoBook 数据集,该数据集是一个大规模的英语对话集合,旨在调查会话期间积累的共享对话历史。该数据集包含 2500 个对话,并建议了一个基于共同信息的基准模型,其结果表明共同信息对于解决后续描述至关重要,强调了需要开发对话交互中常用地基础的更复杂的模型。
Jun, 2019
本文提出了基于语言结构的机器学习任务,并通过三种方案展示了其潜力和可行性,包括通过视觉基现学习语法结构,通过执行感知方法映射句子到语义结构,并通过跨语言词对齐和子结构投影方法改进零样本跨语言依赖分析的性能。
Jun, 2024
本文提出一个基于神经网络的对话模型,用于协同解决局部可见参考游戏。该模型通过结构化的参考解析器精准地理解对话内容,利用递归记忆处理复杂任务并采用合理的生成策略,大幅提高了任务完成率。实验结果表明,该模型相对于同领域前沿技术取得了显著的性能提升。
Sep, 2021
提出了一种空间语言模型用于 3D 视觉定位问题,使用基于 Transformer 的架构将空间嵌入和 DistilBert 的语言嵌入结合起来进行目标对象预测,能够在 ReferIt3D 提出的数据集上表现出竞争性,可以被应用于机器人等领域的视觉任务中。
Jul, 2021
通过对语言模型进行对话交互式评估,将其在常识推理中的功能边界在空间推理方面进行了定性研究,并提出了未来改进语言模型能力和系统化对话评估的建议。
Apr, 2023
本文提出了一种通过利用大规模常识和基于命名实体的知识实现的新型开放域对话生成模型,该模型还利用了与每个话语相关的非结构化主题特定知识,并通过使用共指提高了常识知识。提出的模型利用多跳注意力层保留对话历史和相关知识的最准确和最关键的组成部分,还用到 Commonsense and Named Entity Enhanced Attention Module。实验结果表明我们的模型在两个基准数据集上均显著优于最先进的方法。
May, 2022