Hindi Visual Genome: 多模式英汉机器翻译数据集
该研究创建了首个 Hausa Visual Genome 语料库,其中包含 32923 个图像及图像描述,可用于实现 Hausa-English 机器翻译、多模式研究、图像描述等多个自然语言处理和生成任务。
May, 2022
该论文提出了一种名为 Volta 的系统,通过提取图像中的对象标签来增强多模式机器翻译系统的文本输入,成功地在 WAT 2021 的多模式翻译任务中获得了 BLEU 分数 44.6 和 51.6。
Jun, 2021
本文介绍 HaVQA 数据集,这是用于哈萨语视觉问答任务的第一个多模态数据集。数据集包含来自视觉基因组的 1,555 张图像以及经过手工翻译的 6,022 个英文问题答案对,提供了 12,044 个英文 - 豪萨语平行语句,可用于进行基线实验,包括视觉问答、视觉问答引导、仅文本和多模态机器翻译。
May, 2023
该论文介绍了一种生成用于混合语言的数据集 HinGE,旨在解决在多语言混合文本和语音中对生成文本进行评估的不足,并证明常用的评估度量标准在混合文本数据上的无效性。该数据集有助于混合语言的自然语言生成研究的进展。
Jul, 2021
我们通过模板构建了四种语言的多语言视觉文本数据集,介绍了九项视觉语言任务,并引入了解释机制以评估大型语言模型在视觉语言任务上的表现。
Mar, 2024
该论文介绍了 Visual Genome 数据集,它包含了约 100K 的图像和图像描述、对象、属性、关系和问题答案的密集注释,旨在解决计算机在图像描述、问答等认知任务中的性能瓶颈问题。
Feb, 2016
近期在多模式机器翻译(MMT)领域的研究表明,视觉模态在翻译效果方面要么可有可无,要么只提供了边缘化优势。然而,这些结论大多来自于对有限的双语句子 - 图像配对数据集(如 Multi30k)的实验结果分析,而这类数据集中,一个双语平行句对的内容必须由手工标注的图像很好地表达,这与真实的翻译场景不同。在这项工作中,我们遵循了唐等人(2022 年)提出的通用多模式机器翻译框架。这种方法使我们能够通过利用真实世界的翻译数据集,深入研究视觉模态对翻译效果的影响。通过全面的探索性任务,我们发现视觉模态对大多数真实翻译数据集具有优势。值得注意的是,翻译性能主要取决于文本和视觉内容之间的对齐和一致性。此外,我们的结果表明,视觉信息在多模式翻译中发挥了补充作用,可以被替代。
Apr, 2024
本文提出使用图像搜索引擎和文本感知的注意力视觉编码器来收集并过滤具有描述性的图像,以加强神经机器翻译的性能。在多个数据集上进行的实验证明,该方法较强的基线实现了显著的性能提升。
Jul, 2022
介绍了 Multi30K 数据集以刺激多语言多模态研究,该数据集扩展了 Flickr 30K 数据集以及德国翻译和独立于原始英文描述的描述,并且可以用于多语言图像描述和多模态机器翻译。
May, 2016