UIT-ViIC: 越南图像字幕第一次评估的数据集

Feb, 2020

UIT-ViIC: 越南图像字幕第一次评估的数据集

UIT-ViIC: A Dataset for the First Evaluation on Vietnamese Image Captioning

Quan Hoang Lam, Quang Duy Le, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen

TL;DR本研究扩展了数据集，提供了第一个越南语图像字幕数据集（UIT-ViIC），该数据集包含 19,250 个越南语字幕和 3,850 张图片，我们在深度神经网络模型上对其进行了评估并与英语数据集和其他两个越南语数据集进行了比较。

Abstract

image captioning, the task of automatic generation of image captions, has attracted attentions from researchers in many fields of computer science, being computer vision, natural language processing and

image captioning vietnamese dataset neural network models natural language processing machine learning

发现论文，激发创造

UIT-OpenViIC：越南图像描述评估的新基准

本文介绍了一项新的越南 Open-domain 图像字幕数据集 (UIT-OpenViIC)，用于为低资金研究社区做出贡献。从初步分析中，我们展示了我们的数据集对于最近的 MS COCO 视觉（Vision）转写器基线具有挑战性，这证明 UIT-OpenViIC 有相当大的增长空间，可以成为越南研究社区评估其字幕模型的标准基准之一。另外我们提出了一种 CAMO 方法，通过多级编码器输出融合机制有效地提高了图像表示能力，与以前的字幕模型相比，提高了生成的字幕的质量。

May, 2023

KTVIC：一个基于生活领域的越南图像描述数据集

我们介绍了 KTVIC，一个全面的越南图像字幕数据集，专注于生活领域，涵盖广泛的日常活动。我们在该数据集上使用各种深度神经网络作为基准进行实验证明了提出的数据集的有效性和对越南图像字幕领域的潜在贡献。

Jan, 2024

一份用于评估机器阅读理解的越南语数据集

本研究为缺乏基准数据集的低资源语言（如越南语）创建了一个新的数据集 UIT-ViQuAD，包含超过 23000 个由人类创建的问题 - 答案对和 174 篇来自维基百科的越南文章。通过用现有最先进的机器学习模型解决问题来比较联合测量人类表现和最佳模型表现的结果，结果表明，未来的研究可以提高越南 MRC 的准确度和性能。

Sep, 2020

UIT-ViCoV19QA: 一份越南语 COVID-19 社区问答数据集

Vietnamese researchers presented UIT-ViCoV19QA, the first community-based question answering dataset for COVID-19 from trusted medical sources with multiple paraphrased answers evaluated through deep learning models using commonly used metrics, mainly BLEU, METEOR, and ROUGE-L, which demonstrated significant improvements, and concluded that the deep learning method, especially the Transformer architecture, is dominant in the field of study.

Sep, 2022

ViTextVQA：用于评估图像中越南文本理解的大规模视觉问答数据集

通过对 OCR 文本中令牌的处理和选择顺序的细致实验，我们发现这一发现显著提高了在 ViTextVQA 数据集上基准模型的性能。

Apr, 2024

盲人拍摄的图像字幕

通过观察实际用户的需求，作者介绍了第一个适合盲人用户需求的图像说明数据集，检验数据集特征并比较其和其他数据集的不同，同时研究最新的图像说明算法在如此数据集中的挑战。

Feb, 2020

ViOCRVQA：视觉问答的新型基准数据集和理解图像中越南文本的视觉阅读器

通过提供一个新的数据集 ViOCRVQA，这篇研究论文在 OCR-VQA 任务中引入了一种称为 VisionReader 的新方法，并对该数据集进行了实验，揭示了越南数据集所固有的挑战和困难。

Apr, 2024

ICU: 通过将任务分为图像字幕和语言理解来克服视觉和语言建模中的语言障碍

通过将视觉与语言（V&L）任务分为两个阶段，ICU（图像字幕理解）将模型分为两部分：V&L 模型用英语进行图像字幕生成，然后将字幕作为交替文本，由多语言语言模型（mLM）进行跨语言语义理解。在两项任务中，我们在 IGLUE 基准测试的 9 种语言中进行实验，显示 ICU 在五种语言上可以取得新的最先进结果，并为其他语言取得可比较的结果。

Oct, 2023

视觉问答 2020 挑战赛：图像字幕作为一种辅助技术的经验教训

本文介绍了一种基于 VizWiz 数据集和训练于神经网络算法之上的图像字幕生成系统，旨在实现对盲人等特殊群体的辅助，为提供正面社会影响的机器学习计算机视觉领域生产技术迈出了一步。

Dec, 2020

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014