通过一种类游戏方式收集以视觉为基础的对话

Sep, 2023

通过一种类游戏方式收集以视觉为基础的对话

Collecting Visually-Grounded Dialogue with A Game Of Sorts

Bram Willemsen, Dmytro Kalpakchi, Gabriel Skantze

TL;DR通过引入协同图像排序任务，我们解决了对于可见语境对话的研究的假设简化问题，并描述了一项涉及协作指称过程的小规模数据收集实验的结果。

Abstract

An idealized, though simplistic, view of the referring expression production and grounding process in (situated) dialogue assumes that a speaker must merely appropriately specify their expression so that the targ

referring expression production grounding process visually-grounded dialogue collaborative image ranking task referential process

发现论文，激发创造

基于共识的对话游戏：强调视觉对话环境中的交流基础

本文介绍了一种通过协议达成共识的对话设置，除任务级别目标外，还有一个次要的、显式的目的 —— 达成对任务级别目标是否达成的共识 —— 使得会话参与者更关心彼此的理解，从而产生更丰富的数据以推导模型。

Aug, 2019

面向参考的基于场景的协同对话模型

本文提出一个基于神经网络的对话模型，用于协同解决局部可见参考游戏。该模型通过结构化的参考解析器精准地理解对话内容，利用递归记忆处理复杂任务并采用合理的生成策略，大幅提高了任务完成率。实验结果表明，该模型相对于同领域前沿技术取得了显著的性能提升。

Sep, 2021

基于空间表达的视觉对话的语言分析

本文介绍了一个新的资源和框架，用于研究在视觉基础对话中细化语言理解，该资源包括 OneCommon 语料库、空间表达式、基于参考解析评估模型对语言结构理解的实验等，通过提供全面和可靠的语言结构注释，揭示了基线模型的优缺点。

Oct, 2020

基于视觉对话构建共同语境的 PhotoBook 数据集

本文介绍了 PhotoBook 数据集，该数据集是一个大规模的英语对话集合，旨在调查会话期间积累的共享对话历史。该数据集包含 2500 个对话，并建议了一个基于共同信息的基准模型，其结果表明共同信息对于解决后续描述至关重要，强调了需要开发对话交互中常用地基础的更复杂的模型。

Jun, 2019

野外环境下的图结构指称表达推理

本研究提出了基于场景图的模块化网络 (SGMN) 来解决指代表达式的 grounding 问题，并且设计出了一个大规模实验数据集 Ref-Reasoning，证明了该方法在这个数据集上的优越性。

Apr, 2020

自我对话交互式强化学习的物体定位

本文介绍了一个交互式培训方法，以改进自然语言对话系统的视觉基础任务。培训过程中，共同的奖励函数引导着两个代理逐渐适应并合作完成任务，同时，该参数化奖励函数更新自身使训练效果得到了明显提高。虽然我们在训练过程中观察到了语言漂移问题，但我们提出使用奖励工程来提高生成对话的可解释性。此外，该研究结果表明评估目标为视觉对话任务时，需要比任务成功率更有语义相关性的评估标准。

Dec, 2017

基于视觉对话的社区规范化

本文提出并评估了一种基于多智能体社区的对话框架，在不牺牲任务性能的情况下，通过社区强制规范产生更相关和连贯的对话。

Aug, 2018

人机交互中基于交互式视觉引导还原表达式

本文介绍了 INGRESS，它是一个机器人系统，能够按照自然语言指示拾取和放置日常物品，并使用神经网络模型的两个阶段来进行对象引用和消岐。

Jun, 2018

学习为视觉对话建立视觉对象的联系

提出一种新方法，通过先验分布和后验分布基于上下文理解来实现视觉对象的定位，从而提高视觉对话模型在生成和区分性任务中的表现，并在 VisDial v0.9 和 v1.0 数据集上进行了实验验证。

Sep, 2021

话语不够，次序至关重要：关于视觉指称表达的鲁棒性

该论文研究了视觉指代表达识别这一挑战性任务，发现现有方法未能充分利用语言结构，提出了两种增强其健壮性的方法，并提供了数据集以供使用。

May, 2020