基于空间表达的视觉对话的语言分析

EMNLPOct, 2020

基于空间表达的视觉对话的语言分析

A Linguistic Analysis of Visually Grounded Dialogues Based on Spatial Expressions

Takuma Udagawa, Takato Yamazaki, Akiko Aizawa

TL;DR本文介绍了一个新的资源和框架，用于研究在视觉基础对话中细化语言理解，该资源包括 OneCommon 语料库、空间表达式、基于参考解析评估模型对语言结构理解的实验等，通过提供全面和可靠的语言结构注释，揭示了基线模型的优缺点。

Abstract

Recent models achieve promising results in visually grounded dialogues. However, existing datasets often contain undesirable biases and lack sophisticated linguistic analyses, which make it difficult to understand how well current models recognize their precise →

visually grounded dialogues onecommon corpus linguistic structures reference resolution fine-grained language understanding

发现论文，激发创造

具有语言结构的短语弱监督视觉定位

文章提出了一种弱监督方法，该方法以图像 - 句子对为输入，学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型，使用两种精心设计的损失函数学习短语的视觉基础，并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。

May, 2017

视觉场景的基于语义 grounded 语义构成

本篇研究介绍了一种基于视觉语言理解模型的单词语义组合来生成复杂指代表达式的理论，介绍了其在空间指代表达式中的应用及在语义理解中对视觉语境的影响研究。

Jun, 2011

多模态视觉语言模型中的基于实体的视觉空间推理

利用大规模视觉语言模型评估其在不同视觉推理任务中的性能，特别是在理解空间关系方面的能力的研究。通过细粒度的组合性先验来解决空间关系推理任务的评估和排名，结合物体及其位置的核心语义来计算空间子句的最终评分，并比较不同视觉语言模型在空间关系推理方面的能力。

Aug, 2023

基于视觉对话构建共同语境的 PhotoBook 数据集

本文介绍了 PhotoBook 数据集，该数据集是一个大规模的英语对话集合，旨在调查会话期间积累的共享对话历史。该数据集包含 2500 个对话，并建议了一个基于共同信息的基准模型，其结果表明共同信息对于解决后续描述至关重要，强调了需要开发对话交互中常用地基础的更复杂的模型。

Jun, 2019

通过基于实景的学习掌握语言结构

本文提出了基于语言结构的机器学习任务，并通过三种方案展示了其潜力和可行性，包括通过视觉基现学习语法结构，通过执行感知方法映射句子到语义结构，并通过跨语言词对齐和子结构投影方法改进零样本跨语言依赖分析的性能。

Jun, 2024

面向参考的基于场景的协同对话模型

本文提出一个基于神经网络的对话模型，用于协同解决局部可见参考游戏。该模型通过结构化的参考解析器精准地理解对话内容，利用递归记忆处理复杂任务并采用合理的生成策略，大幅提高了任务完成率。实验结果表明，该模型相对于同领域前沿技术取得了显著的性能提升。

Sep, 2021

Space - 语言模型用于 3D 视觉基础

提出了一种空间语言模型用于 3D 视觉定位问题，使用基于 Transformer 的架构将空间嵌入和 DistilBert 的语言嵌入结合起来进行目标对象预测，能够在 ReferIt3D 提出的数据集上表现出竞争性，可以被应用于机器人等领域的视觉任务中。

Jul, 2021

辩证语言模型评估：对 LLMs 常识空间推理能力的初步评估

通过对语言模型进行对话交互式评估，将其在常识推理中的功能边界在空间推理方面进行了定性研究，并提出了未来改进语言模型能力和系统化对话评估的建议。

Apr, 2023

口语视觉模型：数据集、架构和评价技术综述

本综述纵览近 20 年来视觉基础口语建模的发展，重点讨论了语言学习的核心研究问题、建模架构以及评估指标和分析技术。

Apr, 2021

常识和命名实体感知的知识驱动对话生成

本文提出了一种通过利用大规模常识和基于命名实体的知识实现的新型开放域对话生成模型，该模型还利用了与每个话语相关的非结构化主题特定知识，并通过使用共指提高了常识知识。提出的模型利用多跳注意力层保留对话历史和相关知识的最准确和最关键的组成部分，还用到 Commonsense and Named Entity Enhanced Attention Module。实验结果表明我们的模型在两个基准数据集上均显著优于最先进的方法。

May, 2022