WikiWeb2M：一份基于页面级别的多模态 Wikipedia 数据集

May, 2023

WikiWeb2M：一份基于页面级别的多模态 Wikipedia 数据集

WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset

Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer...

TL;DR通过保留完整的图像、文本和结构数据，Wikipedia Webpage 2M（WikiWeb2M）套件旨在研究多模式网页理解，如页面描述生成、部分摘要和上下文图像说明。

Abstract

webpages have been a rich resource for language and vision-language tasks. Yet only pieces of webpages are kept: image-caption pairs, long text articles, or raw HTML, never all in one place. Webpage tasks have re

webpages multimodal understanding structured data page description

发现论文，激发创造

多级多模态网页理解的生成式任务套件

为了研究多模态网页理解，我们介绍了包含两百万个网页的维基百科网页套件（WikiWeb2M），并在页面描述生成、节选总结和内容图像字幕等三个生成任务上验证了其实用性。

May, 2023

Web2Code: 一个大规模的网页转代码数据集和多模态 LLMs 评估框架

提出了一种用于网页理解和 HTML 代码翻译的基准测试以及多模态大型语言模型的能力评估框架，包括预训练语言模型增强现有数据集和生成新网页图像等内容，并通过广泛实验证明了该数据集的价值。

Jun, 2024

WIT: 基于维基百科的图像文本数据集，用于多模态多语言机器学习

本文介绍了 Wikipedia-based Image Text（WIT）数据集，该数据集是由不同语言构成的 37.6 百万个实体丰富的图像文本示例组成，可用于多模态模型的预训练，如应用于图像文本检索等下游任务。WIT 数据集有四个主要的优势，规模大、多语种、覆盖的概念和实体比以前的数据集更加多样化，并提供一个非常具有挑战性的真实世界的测试集。

Mar, 2021

层次化多模态预训练以理解视觉丰富的网页

通过整合文本、结构和图像等多模态信息，使用多模态预训练网络进行自动文档理解和信息提取，实现了对网页的深入理解，显著提高了网页理解任务的性能。

Feb, 2024

VisualWebBench：多模态 LLM 在网页理解和解释中的发展程度如何？

多模式大型语言模型在网页相关任务中表现出了很大的潜力，评估其在网页领域的性能仍然是一个挑战，因为缺乏全面的基准测试。本文引入了一个名为 ench {} 的多模式基准测试，其设计旨在评估 ML 近几年在网页任务中的能力。通过在 ench {} 上评估了 14 个开源 MLLMs，如 Gemini Pro、Claude-3 系列和 GPT-4V (ision)，我们揭示了重要挑战和性能差距。进一步的分析突出了当前 MLLMs 的限制，包括在文本丰富环境中缺乏足够的基础知识，并在低分辨率图像输入下表现不佳。我们相信 ench {} 将成为研究界宝贵的资源，并为网页相关应用的更加强大和多功能的 MLLMs 的创建做出贡献。

Apr, 2024

How2：一个大规模的多模态语言理解数据集

本研究介绍了 How2，它是一个多模态的指导视频集合，包含英文字幕和社群翻译的葡萄牙语。我们还提出了包括机器翻译、自动语音识别、口语翻译和多模态摘要在内的一些序列到序列的基础模型。通过提供多个多模态自然语言任务的数据和代码，我们希望引导更多关于多模态与语言处理的研究，以获得更加深入的了解。

Nov, 2018

WikiMuTe：音频音乐的语义描述的网络数据集

使用多模态深度学习技术匹配自由形式的文本与音乐在音乐信息检索领域显示出有希望的结果。本研究提出了一个包含音乐丰富语义描述的新开放数据集 WikiMuTe，数据源于维基百科的音乐作品文章目录。使用专门的文本挖掘流程提取覆盖音乐内容各种主题的长短句描述，例如流派、风格、情感、乐器和节奏。展示了利用该数据集训练了一个联合学习文本和音频表示的模型，并进行跨模态检索。该模型在两个任务上进行评估：基于标签的音乐检索和音乐自动标注。结果表明，尽管我们的方法在多个任务上具有最先进的性能，但仍然观察到性能差异取决于用于训练的数据。

Dec, 2023

Mind2Web: 通往 Web 的通才智能代理

使用 Mind2Web 数据集，作者构建了能够利用大型语言模型（LLMs）构建通用 Web 代理的解决方案，该方案使用实际网站而非模拟网站，并提供广泛的用户交互图案。

Jun, 2023

WikiTableT: 为生成维基百科文章章节而设计的大规模数据转文本语料库

本文针对将生成维基百科文章作为一种数据到文本生成任务的问题，创建了一个大规模数据集 WikiTableT，该数据集包含了数以百万计的实例，覆盖了广泛的主题，并且包含了多种不同水平灵活性的生成任务。在该数据集上进行了多种训练和解码策略的评估和分析，结果表明最佳方法能够生成流畅和高质量的文本，但它们在连贯性和真实性方面仍面临挑战，这表明该数据集可以激发未来关于长篇文本生成的研究。

Dec, 2020

基于网络数据的自监督学习在多模态检索中的应用

通过利用 Web 和 Social Media 数据，本文提出一种利用多模态图像和文本嵌入的自监督学习方法，在不需要人工注释的情况下学习强大的特征，并将文本领域学到的语义知识转移至视觉模型用于语义图像检索任务。研究分析了五种不同的文本嵌入方法，表明利用 Web 和 Social Media 数据学习的嵌入具有与监督方法相当的性能，且在训练目标数据时优于最先进方法。最后，介绍了 InstaCities1M 数据集，并演示了如何利用该数据集进行语义多模态图像检索。

Jan, 2019