VISA: 用于视觉场景感知机器翻译的暧昧字幕数据集

Jan, 2022

VISA: 用于视觉场景感知机器翻译的暧昧字幕数据集

VISA: An Ambiguous Subtitles Dataset for Visual Scene-Aware Machine Translation

Yihang Li, Shuichiro Shimizu, Weiqi Gu, Chenhui Chu, Sadao Kurohashi

TL;DR介绍了一个新的VISA数据集，包含40k个日英平行句子和对应的视频片段，特点是源字幕模糊且分为多义和省略两类，证明其对最新的多模态机器翻译系统很有挑战性，可促进MMT研究。

Abstract

Existing multimodal machine translation (MMT) datasets consist of images and video captions or general subtitles, which rarely contain linguistic ambiguity, making visual information not so effective to generate