探索用于 SIMMC 2.0 挑战中的歧义检测和共指消解的多模态表示
在对话中,当引用表达不能唯一地识别出意图的指示对象时,产生了指向性模糊。此研究表明生成和回应澄清请求对于多模式、以视觉为基础的对话模型的架构和目标函数有特定的限制。通过使用 SIMMC 2.0 数据集评估不同最先进模型体系结构处理澄清交流的能力,该模型可探测它们在模型中引起的上下文更新的度量。结果发现,基于语言的模型能够编码简单的多模式语义信息和处理一些澄清交流,而多模式模型可以使用其他学习目标来获取解耦的物体表示,这对处理跨模态的复杂指向性模糊至关重要。
Jul, 2023
本文提出了一种针对在线解码的指代消解方向,其针对包含对话在内的实时生成输入的场景,在每个对话轮次上,该模型接受一个话语和其过去的语境,然后查找当前话语中的提及以及它们的指代。该文章提出了基线和四个增量更新的模型,适应于提到链接范式的新设置,其中包括单一实例、说话人定位编码和跨轮次提及的情境化。在 Friends、OntoNotes 和 BOLT 这三个数据集上评估我们的方法,结果表明每个方面都带来了稳定的改进,我们最好的模型比基线高出 10%以上,是这个场景的一个有效系统。进一步分析突出了任务特点,例如解决提及回忆的重要性。
May, 2022
通过比较多种 BERT-based 语言模型中的语境化词嵌入,我们评估了西班牙语歧义名词的语义表达。我们开发了一个新颖的句子数据集,并收集了人类的相关性判断。结果显示,这些语言模型的语义表达在人类判断中捕捉到一些差异,但不能达到人类水平。与英语不同,我们发现在西班牙语中,模型规模与性能之间没有相关性。此外,我们还发现了目标名词消歧的陈规轨迹,并在英语中部分复制了这一结果。我们贡献了(1)一组包含人类相关性判断的西班牙语句子刺激数据集,以及(2)认识到语言模型规格(结构,训练方案)对语境化嵌入的影响。
Jun, 2024
本文介绍了我们在 Dialog State Tracking Challenge 10 上进行的 Situated Interactive MultiModal Conversations 2.0 挑战中的工作和方法,提出了一种结合图像和文本的多模态模型,并对 SIMMC 2.0 数据集进行了挑战。通过预先训练模型,我们在 subtask#1,#2 中取得了第三佳表现,并在生成 subtask#4 中获得亚军。
Dec, 2021
该论文探讨在多模态对话中,为了创建新的可视化效果,如何通过引用解析来实现用户对大屏幕可视化的引用。它描述了实体引用注释和引用解析管道,并研究了传统 CRF 和深度学习 / 转换器模型(BiLSTM-CRF 和 BERT-CRF)。结果表明,深度学习方法的转移学习显著提高了性能,虽然 CRF 仍然优于它们,但表明传统方法在低资源数据方面可能具有更好的泛化能力。
Sep, 2022
研究采用图像和描述性文本的多模态共指消解,在细粒度的图像 - 文本对齐、叙述语言的内在歧义和缺乏大规模标注数据集的条件下,提出了一种数据效率的半监督方法,用于解决多模态背景下的共指消解和叙述依托问题,通过跨模态框架结合有标注和无标注数据的损失优化,实验证明该方法在共指消解和叙述依托任务上的性能优于强基线模型。
Oct, 2023
本文提出 Multilingual Multiparty Coref (MMC) 数据集用于核心参照消解任务,通过注释的转录来提供其他语言 (中文和波斯语) 的银参照数据,在英文数据中,现有的模型在 MMC 上的表现相对较差,说明 MMC 具有比先前数据集更广泛的多方参照覆盖范围。在银数据上,我们发现在模拟零 - shot 跨语言环境方面,使用它进行数据增强和从头开始的训练都很成功。
Aug, 2022
我们提出了一个任务无关的框架来通过询问用户澄清问题来解决模型中的歧义,我们的方法在确定何时需要澄清、确定要问的澄清问题以及通过澄清获得的新信息方面都取得了显著成果,并对模型的不确定性进行了估计,我们的方法在准确识别需要澄清的预测方面始终优于现有的不确定性估计方法,使系统能够在仅允许在 10%的示例上进行澄清时将性能提升两倍。
Nov, 2023
本文概述了 CRAC 2022 研讨会上多语种共指消解任务的概况,采用公共数据集 CorefUD 1.0 为训练和评估数据,使用 CoNLL 得分作为主要评估指标,并比较了多个系统和竞争基线系统,获胜者系统的表现优于竞争基线 12 个百分点。
Sep, 2022
该论文提出了一种基于机器翻译、多模态、神经适配器和引导自注意机制的新型多模态机器翻译方法,同时还发布了 CoMMuTE 数据集,并在该数据集上取得了显著的性能提升。
Dec, 2022