探索用于 SIMMC 2.0 挑战中的歧义检测和共指消解的多模态表示

AAAIFeb, 2022

探索用于 SIMMC 2.0 挑战中的歧义检测和共指消解的多模态表示

Exploring Multi-Modal Representations for Ambiguity Detection & Coreference Resolution in the SIMMC 2.0 Challenge

Francisco Javier Chiyah-Garcia, Alessandro Suglia, José Lopes, Arash Eshghi, Helen Hastie

TL;DR本文研究了会话人工智能中的歧义检测和指代消解，使用 TOD-BERT 和 LXMERT 模型等对此进行了实现和对比，并得出了语言模型能够检测歧义且单模态指代消解模型可通过智能对象表示避免使用视觉组件等结论。

Abstract

anaphoric expressions, such as pronouns and referential descriptions, are situated with respect to the linguistic context of prior turns, as well as, the immediate visual environment. However, a speaker's

anaphoric expressions referential descriptions ambiguity detection coreference resolution conversational ai

发现论文，激发创造

多模对话模型处理澄清对话的能力评估

在对话中，当引用表达不能唯一地识别出意图的指示对象时，产生了指向性模糊。此研究表明生成和回应澄清请求对于多模式、以视觉为基础的对话模型的架构和目标函数有特定的限制。通过使用 SIMMC 2.0 数据集评估不同最先进模型体系结构处理澄清交流的能力，该模型可探测它们在模型中引起的上下文更新的度量。结果发现，基于语言的模型能够编码简单的多模式语义信息和处理一些澄清交流，而多模式模型可以使用其他学习目标来获取解耦的物体表示，这对处理跨模态的复杂指向性模糊至关重要。

Jul, 2023

对话处理的在线共指消解：提高即时对话中的提及链接

本文提出了一种针对在线解码的指代消解方向，其针对包含对话在内的实时生成输入的场景，在每个对话轮次上，该模型接受一个话语和其过去的语境，然后查找当前话语中的提及以及它们的指代。该文章提出了基线和四个增量更新的模型，适应于提到链接范式的新设置，其中包括单一实例、说话人定位编码和跨轮次提及的情境化。在 Friends、OntoNotes 和 BOLT 这三个数据集上评估我们的方法，结果表明每个方面都带来了稳定的改进，我们最好的模型比基线高出 10％以上，是这个场景的一个有效系统。进一步分析突出了任务特点，例如解决提及回忆的重要性。

May, 2022

双向 Transformer：（西班牙语）上下文中的多义词的表示：新的词汇资源和实证分析

通过比较多种 BERT-based 语言模型中的语境化词嵌入，我们评估了西班牙语歧义名词的语义表达。我们开发了一个新颖的句子数据集，并收集了人类的相关性判断。结果显示，这些语言模型的语义表达在人类判断中捕捉到一些差异，但不能达到人类水平。与英语不同，我们发现在西班牙语中，模型规模与性能之间没有相关性。此外，我们还发现了目标名词消歧的陈规轨迹，并在英语中部分复制了这一结果。我们贡献了（1）一组包含人类相关性判断的西班牙语句子刺激数据集，以及（2）认识到语言模型规格（结构，训练方案）对语境化嵌入的影响。

Jun, 2024

使用预训练单模型进行 SIMMC 2.0 的多模态交互

本文介绍了我们在 Dialog State Tracking Challenge 10 上进行的 Situated Interactive MultiModal Conversations 2.0 挑战中的工作和方法，提出了一种结合图像和文本的多模态模型，并对 SIMMC 2.0 数据集进行了挑战。通过预先训练模型，我们在 subtask＃1，＃2 中取得了第三佳表现，并在生成 subtask＃4 中获得亚军。

Dec, 2021

多模态情境对话中的参照解析和上下文变化用于数据可视化探索

该论文探讨在多模态对话中，为了创建新的可视化效果，如何通过引用解析来实现用户对大屏幕可视化的引用。它描述了实体引用注释和引用解析管道，并研究了传统 CRF 和深度学习 / 转换器模型（BiLSTM-CRF 和 BERT-CRF）。结果表明，深度学习方法的转移学习显著提高了性能，虽然 CRF 仍然优于它们，但表明传统方法在低资源数据方面可能具有更好的泛化能力。

Sep, 2022

图像叙述中的半监督多模态指代消解

研究采用图像和描述性文本的多模态共指消解，在细粒度的图像 - 文本对齐、叙述语言的内在歧义和缺乏大规模标注数据集的条件下，提出了一种数据效率的半监督方法，用于解决多模态背景下的共指消解和叙述依托问题，通过跨模态框架结合有标注和无标注数据的损失优化，实验证明该方法在共指消解和叙述依托任务上的性能优于强基线模型。

Oct, 2023

多方对话中多语言指代消解

本文提出 Multilingual Multiparty Coref (MMC) 数据集用于核心参照消解任务，通过注释的转录来提供其他语言 (中文和波斯语) 的银参照数据，在英文数据中，现有的模型在 MMC 上的表现相对较差，说明 MMC 具有比先前数据集更广泛的多方参照覆盖范围。在银数据上，我们发现在模拟零 - shot 跨语言环境方面，使用它进行数据增强和从头开始的训练都很成功。

Aug, 2022

必要时澄清：通过与语言模型的交互解决多义性

我们提出了一个任务无关的框架来通过询问用户澄清问题来解决模型中的歧义，我们的方法在确定何时需要澄清、确定要问的澄清问题以及通过澄清获得的新信息方面都取得了显著成果，并对模型的不确定性进行了估计，我们的方法在准确识别需要澄清的预测方面始终优于现有的不确定性估计方法，使系统能够在仅允许在 10％的示例上进行澄清时将性能提升两倍。

Nov, 2023

多语言指代消解共享任务的发现

本文概述了 CRAC 2022 研讨会上多语种共指消解任务的概况，采用公共数据集 CorefUD 1.0 为训练和评估数据，使用 CoNLL 得分作为主要评估指标，并比较了多个系统和竞争基线系统，获胜者系统的表现优于竞争基线 12 个百分点。

Sep, 2022

利用图像解决歧义问题：改进的多模态机器翻译和对比评估

该论文提出了一种基于机器翻译、多模态、神经适配器和引导自注意机制的新型多模态机器翻译方法，同时还发布了 CoMMuTE 数据集，并在该数据集上取得了显著的性能提升。

Dec, 2022