Hindi Visual Genome: 多模式英汉机器翻译数据集

Jul, 2019

Hindi Visual Genome: 多模式英汉机器翻译数据集

Hindi Visual Genome: A Dataset for Multimodal English-to-Hindi Machine Translation

Shantipriya Parida, Ondřej Bojar, Satya Ranjan Dash

TL;DR本研究提出了 “印地语视觉基因组” 数据集，首次构建多模态的英印机器翻译的数据集并且免费提供，其中含有英语和图片的文本，适用于英印机器翻译和多模态的研究。

Abstract

visual genome is a dataset connecting structured image information with English language. We present ``Hindi visual genome'', a

visual genome multimodal dataset english-hindi machine translation image information hindi visual genome

发现论文，激发创造

豪萨视觉基因组：用于多模式英豪机器翻译的数据集

该研究创建了首个 Hausa Visual Genome 语料库，其中包含 32923 个图像及图像描述，可用于实现 Hausa-English 机器翻译、多模式研究、图像描述等多个自然语言处理和生成任务。

May, 2022

ViTA: 通过对齐对象标签进行视觉语言翻译

该论文提出了一种名为 Volta 的系统，通过提取图像中的对象标签来增强多模式机器翻译系统的文本输入，成功地在 WAT 2021 的多模式翻译任务中获得了 BLEU 分数 44.6 和 51.6。

Jun, 2021

HaVQA: 用于豪萨语视觉问答和多模态研究的数据集

本文介绍 HaVQA 数据集，这是用于哈萨语视觉问答任务的第一个多模态数据集。数据集包含来自视觉基因组的 1,555 张图像以及经过手工翻译的 6,022 个英文问题答案对，提供了 12,044 个英文 - 豪萨语平行语句，可用于进行基线实验，包括视觉问答、视觉问答引导、仅文本和多模态机器翻译。

May, 2023

HinGE：一份用于生成和评估代码混合 Hinglish 文本的数据集

该论文介绍了一种生成用于混合语言的数据集 HinGE，旨在解决在多语言混合文本和语音中对生成文本进行评估的不足，并证明常用的评估度量标准在混合文本数据上的无效性。该数据集有助于混合语言的自然语言生成研究的进展。

Jul, 2021

构建多语言视觉文本数据集揭示视觉语言模型的多语言能力

我们通过模板构建了四种语言的多语言视觉文本数据集，介绍了九项视觉语言任务，并引入了解释机制以评估大型语言模型在视觉语言任务上的表现。

Mar, 2024

多语种多样性增强视觉 - 语言表示

使用多语言数据集进行预训练可以提高在多个视觉任务中的性能，包括对非英语数据的使用，以及增加地理多样性任务中非洲地区的表现。

May, 2024

Visual Genome：使用众包密集图像注释连接语言和视觉

该论文介绍了 Visual Genome 数据集，它包含了约 100K 的图像和图像描述、对象、属性、关系和问题答案的密集注释，旨在解决计算机在图像描述、问答等认知任务中的性能瓶颈问题。

Feb, 2016

探索使用真实数据集的多模式机器翻译中视觉模态的必要性

近期在多模式机器翻译（MMT）领域的研究表明，视觉模态在翻译效果方面要么可有可无，要么只提供了边缘化优势。然而，这些结论大多来自于对有限的双语句子 - 图像配对数据集（如 Multi30k）的实验结果分析，而这类数据集中，一个双语平行句对的内容必须由手工标注的图像很好地表达，这与真实的翻译场景不同。在这项工作中，我们遵循了唐等人（2022 年）提出的通用多模式机器翻译框架。这种方法使我们能够通过利用真实世界的翻译数据集，深入研究视觉模态对翻译效果的影响。通过全面的探索性任务，我们发现视觉模态对大多数真实翻译数据集具有优势。值得注意的是，翻译性能主要取决于文本和视觉内容之间的对齐和一致性。此外，我们的结果表明，视觉信息在多模式翻译中发挥了补充作用，可以被替代。

Apr, 2024

基于搜索引擎图像检索的多模态神经机器翻译

本文提出使用图像搜索引擎和文本感知的注意力视觉编码器来收集并过滤具有描述性的图像，以加强神经机器翻译的性能。在多个数据集上进行的实验证明，该方法较强的基线实现了显著的性能提升。

Jul, 2022

Multi30K: 多语言英德图像描述

介绍了 Multi30K 数据集以刺激多语言多模态研究，该数据集扩展了 Flickr 30K 数据集以及德国翻译和独立于原始英文描述的描述，并且可以用于多语言图像描述和多模态机器翻译。

May, 2016