当前的解码策略是否能够应对视觉对话的挑战？

Oct, 2022

当前的解码策略是否能够应对视觉对话的挑战？

Are Current Decoding Strategies Capable of Facing the Challenges of Visual Dialogue?

Amit Kumar Chaudhary, Alex J. Lucassen, Ioanna Tsani, Alberto Testoni

TL;DR本文旨在探讨解码策略在视觉对话任务中的表现。通过比较不同的解码策略和超参数配置发现，目前尚未发现能同时满足单词丰富程度、任务准确性和视觉对齐要求的最佳策略，但是本文的深度分析能够提出每种策略的长处和不足，为未来的解码算法设计提供借鉴。

Abstract

decoding strategies play a crucial role in natural language generation systems. They are usually designed and evaluated in open-ended text-only tasks, and it is not clear how different strategies handle the numer

发现论文，激发创造

视觉对话

本文介绍了视觉对话任务，即通过图像、对话历史和问题，要求AI智能体以自然、对话式的语言与人类进行有意义的对话，并率先提出了一种基于视觉的通用测试方法以及一种新颖的二人聊天数据收集协议。在此基础上，利用Latre Fusion、Hierarchical Recurrent Encoder和Memory Network等三个编码器和两个解码器（生成式和判别式），超越了许多复杂的基准线，并采用了基于检索的评估协议，Quantify了机器和人类在视觉对话任务上的性能差距，进而演示了第一款“视觉聊天机器人”。

Nov, 2016

双人博弈：具有辨别式问题生成和回答的视觉对话

展示了一个简单对称的辨别性基线，该基线可用于预测答案和问题，其性能与最先进的记忆网络方法相当。此外，首次在视觉对话数据集上评估了提问系统的性能，并展示了如何从辨别式问题生成和问题回答生成视觉对话。

Mar, 2018

用于端到端视频对话系统的多模态Transformer网络

本研究提出了一种使用多模态转换网络（MTN）来编码和整合不同模态信息的视频对话系统。在对话生成过程中，我们提出了一个训练程序来模拟标记级解码，从而提高了生成响应的质量。我们在DSTC7上获得了最优秀的表现，并且我们的模型具有很好的泛化性能。

Jul, 2019

基于共识的对话游戏：强调视觉对话环境中的交流基础

本文介绍了一种通过协议达成共识的对话设置，除任务级别目标外，还有一个次要的、显式的目的——达成对任务级别目标是否达成的共识——使得会话参与者更关心彼此的理解，从而产生更丰富的数据以推导模型。

Aug, 2019

DAM: 在视觉对话中生成详细且不重复回复的思考、放弃和记忆网络

本文提出了一种新的生成解码结构，其中单词的生成被分解成一系列基于注意力的信息选择步骤。利用 Deliberation、Abandon 和 Memory 模块来进行适应性选择，结合了编码器捕获的响应级语义和为生成每个单词专门选择的单词级语义。该结构在可维持语义准确性的同时，生成的响应更加详细和非重复，并且相对于编码器是灵活的。将 Deliberation、Abandon 和 Memory 模块应用到三个典型的编码器，并在 VisDial v1.0 数据集上验证了性能，实验结果表明，所提出的模型取得了高质量响应的新的最优性能。

Jul, 2020

寻求确认：一种有效且类人的视觉对话策略

在视觉对话任务中生成面向目标的问题是一个具有挑战性且长期存在的问题。本文提出了一种基于信息搜索和跨情境单词学习的认知文献的启发式模型 Confirm-it 来生成更自然和有效的问题，并在 GuessWhat?! 游戏上进行了案例研究。

Sep, 2021

神经文本生成器的解码策略

该研究对语言生成任务和解码策略之间的相互作用进行了全面分析，测量了生成文本属性随着解码策略和任务的变化情况，并使用人工和自动评估发现了之前观察到的和令人惊讶的结果，如语言生成中的多样性与质量之间的平衡是非常特定于任务的，而模式搜索方法如光束搜索在机器翻译中表现出色，但在故事生成中会导致不连贯和重复的文本。

Mar, 2022

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的MLLMs奠定了基础。

Feb, 2024

视觉与语言解码器是否平等使用图像和文本？它们的解释是否自洽？

本研究探讨了视觉和语言模型在生成解释时与提供答案时对模态的依赖程度，并评估了视觉和语言模型解码器在后-hoc和CoT解释设置中的自我一致性，发现视觉和语言模型的自我一致性不如纯语言模型，对图像的贡献要远小于文本的贡献，尤其是在解释生成方面，这种差异在CoT解释设置中尤为明显。此外，对最新的视觉和语言模型解码器进行了基准测试，发现视觉和语言模型解码器仍然在VALSE测试中面临许多困难现象。

Apr, 2024

视觉基础对话中的指代表达生成与话语意识理解指导

本文针对视觉基础对话中的指代表达生成（REG）问题，提出了一种新方法，以生成既具区分性又适合话语的指代表达。通过两阶段的处理方法，研究发现该方法在重排名生成的指代表达方面在文本-图像检索准确性上具有显著提高效果。

Sep, 2024