图像描述中的跨语言差异与相似性

ACLJul, 2017

图像描述中的跨语言差异与相似性

Cross-linguistic differences and similarities in image descriptions

Emiel van Miltenburg, Desmond Elliott, Piek Vossen

TL;DR通过对英语、荷兰语和德语图像描述的跨语言比较，发现众包工作者对图像的熟悉程度对图像描述的具体性有明显影响。

Abstract

automatic image description systems are commonly trained and evaluated on large image description datasets. Recently, researchers have started to collect such datasets for languages other than English. An unexplored question is how different these datasets are from English and, if ther

automatic image description systems cross-linguistic comparison dataset differences english, dutch and german influence of crowd workers' familiarity

发现论文，激发创造

文化与语言多样性改善视觉表达

我们的研究展示了多语言语境下数据集和模型生成的图像标题之间的显著语义差异，以及不同语言训练的模型在对应语言的测试数据上表现最佳，而在多语言内容上训练的模型在所有评估数据组合上都表现良好，这对于改善图像理解的多样化感知具有重要意义。

Oct, 2023

Multi30K: 多语言英德图像描述

介绍了 Multi30K 数据集以刺激多语言多模态研究，该数据集扩展了 Flickr 30K 数据集以及德国翻译和独立于原始英文描述的描述，并且可以用于多语言图像描述和多模态机器翻译。

May, 2016

标题：字幕中的内容？数据集特定的语言多样性及其对视觉描述模型和度量的影响

研究自动视频描述领域的发展，发现数据集所具有的语言多样性是影响生成泛化性通用和无信息的描述文本的关键因素。推荐多样性采集新数据的方法和应对当前模型和指标多样性有限的后果的方法和方法。

May, 2022

多语种多样性增强视觉 - 语言表示

使用多语言数据集进行预训练可以提高在多个视觉任务中的性能，包括对非英语数据的使用，以及增加地理多样性任务中非洲地区的表现。

May, 2024

跨语言文化下的视觉推理

通过引入印尼语、汉语、斯瓦希里语、泰米尔语和土耳其语等语言，构建了一个新的 ImageNet-style 分层协议，从本地化的角度推荐相关概念和图像，建立了一个用于多文化及多语言视觉和语言推理的数据集 MaRVL，并列举出一系列现代模型的基线，发现其跨语言性能显著滞后于英语的监督性能。

Sep, 2021

使用人类参考数据评估自动图像描述

通过产生更好的数据和寻找替代方法来改进图像描述系统的评估，因为当前的图像描述数据集质量不足。需要更详细的指导方针来考虑视觉障碍用户的需求和生成适当的描述。

Jun, 2020

神经序列模型中的多语言图像描述

通过神经机器翻译和神经图像描述相结合的方法，在多语言图像描述任务中使用序列生成模型作为研究方法，我们发现相较于只针对单个语言的模型，使用多语言训练的模型在英语和德语对齐的 IAPR-TC12 数据集上的 BLEU4 和 Meteor 分数显著且实质性地提高了。

Oct, 2015

流畅引导下的跨语言图像字幕生成

本研究旨在建立一种跨语言图像描述模型，使用机器翻译的句子进行训练并通过流利度引导的学习框架提高生成的中文标题的流畅性和相关性，取得了显著成效。

Aug, 2017

学习描述一对相似图片之间的差异

本文介绍了一项任务，即自动生成文本来描述两个相似图像之间的差异。我们通过众包获取了一组新的数据集，并提出了一种模型，该模型使用隐变量来根据像素聚类将不同的像素与输出句子对齐，以捕捉视觉显著性并实现语言和视觉的对准。

Aug, 2018

零样本跨语言事件语义学习

本文研究跨语言识别图像标题中的语言学方面，通过计算模型可以准确预测词法方面，无需直接观察全部注释数据即可在尚未观察到的语言上进行词法方面的预测。

Jul, 2022