展示了一个简单对称的辨别性基线,该基线可用于预测答案和问题,其性能与最先进的记忆网络方法相当。此外,首次在视觉对话数据集上评估了提问系统的性能,并展示了如何从辨别式问题生成和问题回答生成视觉对话。
Mar, 2018
本文研究了如何将对话管理器的能力融入端到端的基于视觉的对话代理,通过增加一个决策组件来决定是否询问一个图像中的目标指代,可以减少冗余和不必要的问题,并且可能导致更高效和更自然的交互。
May, 2018
使用基于规范相关分析(CCA)的简单方法,我们对视觉对话进行了特征描述,并指出现有方法存在的问题。该方法忽略了视觉刺激和对话排序,不需要梯度,具有较少的参数数量和学习时间,并在标准数据集上达到了接近最先进的性能水平,进一步分析了数据集的隐含偏差和过度约束的评估指标效应。
Dec, 2018
本研究提出了一种图像-问题-答案协同网络来评估答案的作用,该网络将传统的一阶段解决方案扩展为两个阶段,并在 Visual Dialog v1.0 数据集中取得了最新的最高成果。
Feb, 2019
本文研究了目标导向的视觉对话任务,提出了一种结合强化学习和正则化信息增益的端到端目标导向视觉对话系统,并在GuessWhat?!数据集上进行了测试,取得了优于当前最先进模型的显著结果。
Jul, 2019
通过辅助目标激励Qbot多样性提问以减少重复, 从而达到更好的视觉对话效果, 在保证与前期研究同等图像相关性的同时, 大大提升了对话的多样性、一致性、流畅度和细节。
Sep, 2019
本文提出了一种基于答案驱动的视觉状态估计器,用于目标视觉内容的更新和问题生成,并在 GuessWhat?! 数据集上完成了问题生成和猜测任务,获得了最先进的表现。
Oct, 2020
通过提出一个视觉基础的问题-回答模型框架,使用期望的信息量增益优化来产生极性澄清问题以消除人机对话中的误解,从而展示了该模型在目标导向的20个问题游戏中与人工回答者一起提出的问题如何提高交流成功率。
Oct, 2021
本文旨在探讨解码策略在视觉对话任务中的表现。通过比较不同的解码策略和超参数配置发现,目前尚未发现能同时满足单词丰富程度、任务准确性和视觉对齐要求的最佳策略,但是本文的深度分析能够提出每种策略的长处和不足,为未来的解码算法设计提供借鉴。
Oct, 2022
通过分析以前未使用的人类错误数据集,展示了人类回答错误与问题类型和视觉对话中的问答轮次的相关性,并通过使用简单的MLP模型和视觉语言模型的实验,证明了这些因素对于模型准确性在指向人类错误任务中的有效性。
Sep, 2023