多模机器翻译中高效的物体级视觉上下文建模: 掩蔽无关物体有助于建立联系
该研究论文探索了多模态背景知识在开放词汇目标检测中的作用,并提出了一种多模态背景知识蒸馏框架,通过从多模态融合转换器中学习上下文知识并应用于学生检测器,取得了显著的提升。
Aug, 2023
本文中,我们研究了多模式机器翻译(MMT)中视觉模态的贡献,通过分析证明,即使在有限的文本和文本上下文的情况下,模型也能够利用视觉输入来生成更好的翻译结果。
Mar, 2019
本文研究了多模式机器翻译(MMT)系统在存在视觉上下文时比纯文本神经机器翻译(NMT)系统表现更好,并探讨了视觉数据集对于 MMT 模型的训练和评估的重要性,表明 MMT 架构相关的有效研究目前受到合适数据集的限制,未来的 MMT 数据集必须经过仔细考虑。
Sep, 2021
我们介绍了一种新颖的多模式机器翻译模型,利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义,并实现共享的视觉 - 语言嵌入和翻译器的联合优化,取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上,我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。
Aug, 2018
通过在上下文中引入视觉对象向量,我们提出了一种新的方法来引导大型语言模型,从而实现可控的对象级推理,消除了融合冗长图像区块特征的必要性,显著加速了训练。此外,我们还提出了使用对象表示进行区域级检索的方法,便于快速适应新对象而无需额外训练。我们的实验证明,我们的方法在参考对象分类和字幕生成性能上达到了竞争力,并提供了零样本泛化和对视觉上具有挑战性的情境的稳健性。
Jun, 2024
通过多模式机器翻译 (MMT) 系统中的视觉定位和屏蔽的挑战,我们提出了用于检测和选择与视觉有关的文本令牌进行屏蔽的新方法,包括自然语言处理 (NLP) 检测、目标检测检测和联合检测 - 验证技术。我们还引入了选择已检测到的令牌的新方法,包括最短 n 个令牌、最长 n 个令牌和所有已检测到的具体令牌。在合成的多模式数据集上利用 GRAM MMT 结构训练模型,通过基准模型显示了在翻译任务中性能的改进和对视觉上下文的改进使用。
Mar, 2024
本文探究了视觉模型对多模态机器翻译(MMT)的影响,使用了如 Transformer 等强大的模型和增强功能来实验,并开发了一种选择性注意力模型来研究图像在 MMT 中的补丁级贡献。研究结果表明,强大的视觉模型有助于学习从视觉模态进行翻译,同时也建议在当前基准测试规模小且有偏差时,需要仔细研究 MMT 模型。
Mar, 2022
本文旨在从信息论角度提高多模式机器翻译的视觉感知能力,通过将信息量化为源特定信息和目标特定信息,并提出两种目标优化方法以更好地利用视觉信号来解决输入退化的问题。实验结果表明,我们的方法可以显著提高 MMT 模型的视觉感知能力,并在两个数据集上取得了优秀的结果。
Oct, 2022
最近,大规模视觉语言模型(VLM)的出现,如 CLIP,为开放世界的物体感知打开了道路。我们提出了一个新的任务,开放词汇伪装的物体分割(OVCOS),并构建了一个包含 11,483 个精选图像和细粒度注释的大规模复杂场景数据集(OVCamo)。通过集成类别语义知识的指导和依赖边缘和深度信息的视觉结构线索的补充,所提出的方法可以有效地捕捉伪装对象。此外,这个有效的框架在我们的 OVCamo 数据集上也超过了先前状态 - of-the-art 的开放词汇语义图像分割方法。借助提出的数据集和基线,我们希望这个具有更多实际价值的新任务能进一步扩展开放词汇密集预测任务的研究。
Nov, 2023
对比于其它多模式机器翻译 (MMT) 方法,我们提出了一种短语级别检索的 MMT 方法,从已有的文本 - 图像数据集中获得源输入的视觉信息,有利于缓解输入限制和数据稀疏的问题,并且通过条件变分自编码器可以更好地过滤多余的视觉信息和仅保留和短语相关的视觉信息。这个方法在多个 MMT 数据集上实验结果表明显著优于强基线模型,尤其是在文本语境有限的情况下。
Mar, 2022