KTVIC:一个基于生活领域的越南图像描述数据集
本研究扩展了数据集,提供了第一个越南语图像字幕数据集(UIT-ViIC),该数据集包含 19,250 个越南语字幕和 3,850 张图片,我们在深度神经网络模型上对其进行了评估并与英语数据集和其他两个越南语数据集进行了比较。
Feb, 2020
本文介绍了一项新的越南 Open-domain 图像字幕数据集 (UIT-OpenViIC),用于为低资金研究社区做出贡献。从初步分析中,我们展示了我们的数据集对于最近的 MS COCO 视觉(Vision)转写器基线具有挑战性,这证明 UIT-OpenViIC 有相当大的增长空间,可以成为越南研究社区评估其字幕模型的标准基准之一。另外我们提出了一种 CAMO 方法,通过多级编码器输出融合机制有效地提高了图像表示能力,与以前的字幕模型相比,提高了生成的字幕的质量。
May, 2023
通过对 OCR 文本中令牌的处理和选择顺序的细致实验,我们发现这一发现显著提高了在 ViTextVQA 数据集上基准模型的性能。
Apr, 2024
本研究提出了一个在医疗保健领域中使用的自动越南语图像字幕生成模型,使用 Swin Transformer 和 LSTM 与关注模块作为编码器和解码器,最终在 VLSP Challenge 2021 中获得第三名的成绩。
Sep, 2022
本研究为缺乏基准数据集的低资源语言(如越南语)创建了一个新的数据集 UIT-ViQuAD,包含超过 23000 个由人类创建的问题 - 答案对和 174 篇来自维基百科的越南文章。通过用现有最先进的机器学习模型解决问题来比较联合测量人类表现和最佳模型表现的结果,结果表明,未来的研究可以提高越南 MRC 的准确度和性能。
Sep, 2020
通过引入具有开拓性质的 ViCLEVR 数据集,该研究对当代视觉推理系统进行了全面分析,提出了一种综合的多模态融合模型 PhoVIT,并在四个评估指标上取得了最先进的性能,进一步促进了针对低资源语言的多模态融合算法的发展。
Oct, 2023
Vietnamese researchers presented UIT-ViCoV19QA, the first community-based question answering dataset for COVID-19 from trusted medical sources with multiple paraphrased answers evaluated through deep learning models using commonly used metrics, mainly BLEU, METEOR, and ROUGE-L, which demonstrated significant improvements, and concluded that the deep learning method, especially the Transformer architecture, is dominant in the field of study.
Sep, 2022
本研究介绍了一个高质量和大规模的英越语音翻译基准数据集,并使用强基线进行实证实验,发现传统的 “级联” 方法仍然优于现代的 “端到端” 方法,这是有关大规模英越语音翻译的第一项研究,我们的数据集和研究可用于未来研究和应用的起点。
Aug, 2022
通过提供一个新的数据集 ViOCRVQA,这篇研究论文在 OCR-VQA 任务中引入了一种称为 VisionReader 的新方法,并对该数据集进行了实验,揭示了越南数据集所固有的挑战和困难。
Apr, 2024
通过观察实际用户的需求,作者介绍了第一个适合盲人用户需求的图像说明数据集,检验数据集特征并比较其和其他数据集的不同,同时研究最新的图像说明算法在如此数据集中的挑战。
Feb, 2020