UIT-ViIC: 越南图像字幕第一次评估的数据集
本文介绍了一项新的越南 Open-domain 图像字幕数据集 (UIT-OpenViIC),用于为低资金研究社区做出贡献。从初步分析中,我们展示了我们的数据集对于最近的 MS COCO 视觉(Vision)转写器基线具有挑战性,这证明 UIT-OpenViIC 有相当大的增长空间,可以成为越南研究社区评估其字幕模型的标准基准之一。另外我们提出了一种 CAMO 方法,通过多级编码器输出融合机制有效地提高了图像表示能力,与以前的字幕模型相比,提高了生成的字幕的质量。
May, 2023
我们介绍了 KTVIC,一个全面的越南图像字幕数据集,专注于生活领域,涵盖广泛的日常活动。我们在该数据集上使用各种深度神经网络作为基准进行实验证明了提出的数据集的有效性和对越南图像字幕领域的潜在贡献。
Jan, 2024
本研究为缺乏基准数据集的低资源语言(如越南语)创建了一个新的数据集 UIT-ViQuAD,包含超过 23000 个由人类创建的问题 - 答案对和 174 篇来自维基百科的越南文章。通过用现有最先进的机器学习模型解决问题来比较联合测量人类表现和最佳模型表现的结果,结果表明,未来的研究可以提高越南 MRC 的准确度和性能。
Sep, 2020
Vietnamese researchers presented UIT-ViCoV19QA, the first community-based question answering dataset for COVID-19 from trusted medical sources with multiple paraphrased answers evaluated through deep learning models using commonly used metrics, mainly BLEU, METEOR, and ROUGE-L, which demonstrated significant improvements, and concluded that the deep learning method, especially the Transformer architecture, is dominant in the field of study.
Sep, 2022
通过对 OCR 文本中令牌的处理和选择顺序的细致实验,我们发现这一发现显著提高了在 ViTextVQA 数据集上基准模型的性能。
Apr, 2024
通过观察实际用户的需求,作者介绍了第一个适合盲人用户需求的图像说明数据集,检验数据集特征并比较其和其他数据集的不同,同时研究最新的图像说明算法在如此数据集中的挑战。
Feb, 2020
通过提供一个新的数据集 ViOCRVQA,这篇研究论文在 OCR-VQA 任务中引入了一种称为 VisionReader 的新方法,并对该数据集进行了实验,揭示了越南数据集所固有的挑战和困难。
Apr, 2024
通过将视觉与语言(V&L)任务分为两个阶段,ICU(图像字幕理解)将模型分为两部分:V&L 模型用英语进行图像字幕生成,然后将字幕作为交替文本,由多语言语言模型(mLM)进行跨语言语义理解。在两项任务中,我们在 IGLUE 基准测试的 9 种语言中进行实验,显示 ICU 在五种语言上可以取得新的最先进结果,并为其他语言取得可比较的结果。
Oct, 2023
本文介绍了一种基于 VizWiz 数据集和训练于神经网络算法之上的图像字幕生成系统,旨在实现对盲人等特殊群体的辅助,为提供正面社会影响的机器学习计算机视觉领域生产技术迈出了一步。
Dec, 2020