基于 Web 的视觉语料库构建技术报告，用于视觉文档理解

Nov, 2022

基于 Web 的视觉语料库构建技术报告，用于视觉文档理解

Technical Report on Web-based Visual Corpus Construction for Visual Document Understanding

Donghyun Kim, Teakgyu Hong, Moonbin Yim, Yoonsik Kim, Geewook Kim

TL;DR该论文介绍了一个名为 Web-based Visual Corpus Builder 的数据集生成引擎，可以从原始 Wikipedia HTML 转储中准确构建大规模的视觉语料库，并验证其生成的数据可以覆盖广泛的上下文和知识，成为构建强大的视觉文档理解（VDU）骨干的有力工具。

Abstract

We present a dataset generator engine named web-based visual corpus builder (Webvicob). Webvicob can readily construct a large-scale visual corpus (i.e., images with text annotations) from a raw →

web-based visual corpus builder large-scale visual corpus wikipedia html dump visual document understanding data validation

发现论文，激发创造

WebVision 数据库：从网络数据中进行视觉学习和理解

本研究基于收集自网络的大规模嘈杂数据对学习视觉识别模型进行了探究。我们构建了一个名为 WebVision 的新数据库，其中包含了超过 240 万张与 ILSVRC 2012 基准数据集的 1,000 个语义概念相关的查询生成的网络图像，并收集了元信息（例如标题，描述，标签等）。通过这个数据库，我们发现网络图像可以用于训练良好的深度 CNN 模型，且该模型的泛化能力甚至优于 ILSVRC 2012 数据集训练的模型。此外，我们也发现了一个数据集偏见问题，即在视觉领域自适应方面存在一些问题。这个新的 WebVision 数据库及其相关研究对于利用网络数据最小化监督学习最先进的视觉模型具有重要的价值。

Aug, 2017

ClueWeb22: 100 亿个带视觉和语义信息的网络文档

ClueWeb22 是一个高质量的、大规模的 Web 语料库，旨在支持信息系统、检索 - 增强 AI 系统和模型预训练等领域的学术和工业研究。

Nov, 2022

UIT-ViIC: 越南图像字幕第一次评估的数据集

本研究扩展了数据集，提供了第一个越南语图像字幕数据集（UIT-ViIC），该数据集包含 19,250 个越南语字幕和 3,850 张图片，我们在深度神经网络模型上对其进行了评估并与英语数据集和其他两个越南语数据集进行了比较。

Feb, 2020

MuAViC: 一个用于稳健语音识别和文本翻译的多语言音视频语料库

MuAViC 是首个开放的多语言视听数据集，共提供了 1200 小时覆盖 9 种语言的视听数据，可应用于嘈杂环境下的语音识别和翻译模型构建。

Mar, 2023

从 Web 爬虫数据构建高质量视觉丰富文档的语料库

提出一种高效管道，通过使用 Common Crawl 在因特网上创建大规模、多语种的 PDF 文件语料库，有助于语言模型的预训练。数据集和工具为研究者提供了开发更好的多语言语言模型的机会。

Apr, 2023

WebVision 挑战赛：基于网络数据的视觉学习与理解

2017 年 WebVision 挑战赛，旨在提供一组无需人工标记的互联网图像数据集和公开竞赛。数据集中包含超过 240 万张使用 ILSVRC 2012 语义概念生成的查询的互联网图像，用于在 WebVision 测试集上进行图像分类和在 PASCAL VOC 2012 数据集上进行迁移学习的任务。本文描述了数据收集与注释的详细信息、数据集的特点以及评估指标。

May, 2017

OmniCorpus：一个包含百亿级图像和文本交叉编码的统一多模态语料库

介绍了 OmniCorpus 数据集，一个 100 亿级别的图文交错数据集，与互联网数据的呈现范式相一致并且紧密符合人类阅读习惯，通过全面的分析和实验验证了所提出数据集的质量、可用性和有效性，为未来的多模态模型研究提供了坚实的数据基础。

Jun, 2024

从维基数据构建广泛数据口语化数据集 WDV

本研究提出了一个基于 Wikidata 的大型知识图谱的口语化理解数据集 WDV，以填补当前 KG 口语化数据集在丰富性和紧密耦合性方面存在的空缺，同时通过衡量人类可读程度和足够性等可重复的工作流程评估了信息转化的质量。

May, 2022

构建并评估通用命名实体识别英语语料库

本文介绍了使用 Universal Named Entity 框架来自动生成注释语料库的应用。通过使用从维基百科数据和元数据以及 DBpedia 信息中提取出来的工作流程，我们生成了一个英语数据集并进行了描述和评估。此外，我们进行了一系列实验，以在精确度，召回率和 F1-measure 方面改善注释。最终数据集可供使用，建立的工作流程可应用于任何具有现有维基百科和 DBpedia 的语言。作为未来研究的一部分，我们打算继续改进注释过程并将其扩展到其他语言。

Dec, 2022

VICTR：文本到图像多模式任务的视觉信息捕获文本表示

本文提出了一种新的视觉上下文文本表示方法，VICTR，用于处理文本到图像的多模态任务，通过使用图卷积网络和文本表征的结合，有效地捕捉了文本语义中的视觉特征信息，实现了在实验中得到的量化和定性的改进。

Oct, 2020