KTVIC：一个基于生活领域的越南图像描述数据集

Jan, 2024

KTVIC：一个基于生活领域的越南图像描述数据集

KTVIC: A Vietnamese Image Captioning Dataset on the Life Domain

Anh-Cuong Pham, Van-Quang Nguyen, Thi-Hong Vuong, Quang-Thuy Ha

TL;DR我们介绍了 KTVIC，一个全面的越南图像字幕数据集，专注于生活领域，涵盖广泛的日常活动。我们在该数据集上使用各种深度神经网络作为基准进行实验证明了提出的数据集的有效性和对越南图像字幕领域的潜在贡献。

Abstract

image captioning is a crucial task with applications in a wide range of domains, including healthcare and education. Despite extensive research on English image captioning datasets, the availability of such datas

image captioning vietnamese dataset deep neural networks evaluation

发现论文，激发创造

UIT-ViIC: 越南图像字幕第一次评估的数据集

本研究扩展了数据集，提供了第一个越南语图像字幕数据集（UIT-ViIC），该数据集包含 19,250 个越南语字幕和 3,850 张图片，我们在深度神经网络模型上对其进行了评估并与英语数据集和其他两个越南语数据集进行了比较。

Feb, 2020

UIT-OpenViIC：越南图像描述评估的新基准

本文介绍了一项新的越南 Open-domain 图像字幕数据集 (UIT-OpenViIC)，用于为低资金研究社区做出贡献。从初步分析中，我们展示了我们的数据集对于最近的 MS COCO 视觉（Vision）转写器基线具有挑战性，这证明 UIT-OpenViIC 有相当大的增长空间，可以成为越南研究社区评估其字幕模型的标准基准之一。另外我们提出了一种 CAMO 方法，通过多级编码器输出融合机制有效地提高了图像表示能力，与以前的字幕模型相比，提高了生成的字幕的质量。

May, 2023

ViTextVQA：用于评估图像中越南文本理解的大规模视觉问答数据集

通过对 OCR 文本中令牌的处理和选择顺序的细致实验，我们发现这一发现显著提高了在 ViTextVQA 数据集上基准模型的性能。

Apr, 2024

使用 Swin Transformer 和基于 Attention 的 LSTM 进行医疗领域的越南语图像字幕生成 (VieCap4H-VLSP 2021)

本研究提出了一个在医疗保健领域中使用的自动越南语图像字幕生成模型，使用 Swin Transformer 和 LSTM 与关注模块作为编码器和解码器，最终在 VLSP Challenge 2021 中获得第三名的成绩。

Sep, 2022

一份用于评估机器阅读理解的越南语数据集

本研究为缺乏基准数据集的低资源语言（如越南语）创建了一个新的数据集 UIT-ViQuAD，包含超过 23000 个由人类创建的问题 - 答案对和 174 篇来自维基百科的越南文章。通过用现有最先进的机器学习模型解决问题来比较联合测量人类表现和最佳模型表现的结果，结果表明，未来的研究可以提高越南 MRC 的准确度和性能。

Sep, 2020

ViCLEVR：一种用于越南视觉问答的视觉推理数据集和混合多模态融合模型

通过引入具有开拓性质的 ViCLEVR 数据集，该研究对当代视觉推理系统进行了全面分析，提出了一种综合的多模态融合模型 PhoVIT，并在四个评估指标上取得了最先进的性能，进一步促进了针对低资源语言的多模态融合算法的发展。

Oct, 2023

UIT-ViCoV19QA: 一份越南语 COVID-19 社区问答数据集

Vietnamese researchers presented UIT-ViCoV19QA, the first community-based question answering dataset for COVID-19 from trusted medical sources with multiple paraphrased answers evaluated through deep learning models using commonly used metrics, mainly BLEU, METEOR, and ROUGE-L, which demonstrated significant improvements, and concluded that the deep learning method, especially the Transformer architecture, is dominant in the field of study.

Sep, 2022

一个高质量且大规模的英越语音翻译数据集

本研究介绍了一个高质量和大规模的英越语音翻译基准数据集，并使用强基线进行实证实验，发现传统的 “级联” 方法仍然优于现代的 “端到端” 方法，这是有关大规模英越语音翻译的第一项研究，我们的数据集和研究可用于未来研究和应用的起点。

Aug, 2022

ViOCRVQA：视觉问答的新型基准数据集和理解图像中越南文本的视觉阅读器

通过提供一个新的数据集 ViOCRVQA，这篇研究论文在 OCR-VQA 任务中引入了一种称为 VisionReader 的新方法，并对该数据集进行了实验，揭示了越南数据集所固有的挑战和困难。

Apr, 2024

盲人拍摄的图像字幕

通过观察实际用户的需求，作者介绍了第一个适合盲人用户需求的图像说明数据集，检验数据集特征并比较其和其他数据集的不同，同时研究最新的图像说明算法在如此数据集中的挑战。

Feb, 2020