多级多模态网页理解的生成式任务套件

May, 2023

多级多模态网页理解的生成式任务套件

A Suite of Generative Tasks for Multi-Level Multimodal Webpage Understanding

Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer...

TL;DR为了研究多模态网页理解，我们介绍了包含两百万个网页的维基百科网页套件（WikiWeb2M），并在页面描述生成、节选总结和内容图像字幕等三个生成任务上验证了其实用性。

Abstract

Webpages have been a rich, scalable resource for vision-language and language only tasks. Yet only pieces of webpages are kept: image-caption pairs, long text articles, or raw HTML, never all in one place. Webpage tasks have resultingly received little attention and structured image-text data left underused. To study →

multimodal webpage understanding wikipedia webpage suite prefix global attention mechanism page description generation section summarization

发现论文，激发创造

WikiWeb2M：一份基于页面级别的多模态 Wikipedia 数据集

通过保留完整的图像、文本和结构数据，Wikipedia Webpage 2M（WikiWeb2M）套件旨在研究多模式网页理解，如页面描述生成、部分摘要和上下文图像说明。

May, 2023

层次化多模态预训练以理解视觉丰富的网页

通过整合文本、结构和图像等多模态信息，使用多模态预训练网络进行自动文档理解和信息提取，实现了对网页的深入理解，显著提高了网页理解任务的性能。

Feb, 2024

Web2Code: 一个大规模的网页转代码数据集和多模态 LLMs 评估框架

提出了一种用于网页理解和 HTML 代码翻译的基准测试以及多模态大型语言模型的能力评估框架，包括预训练语言模型增强现有数据集和生成新网页图像等内容，并通过广泛实验证明了该数据集的价值。

Jun, 2024

VisualWebBench：多模态 LLM 在网页理解和解释中的发展程度如何？

多模式大型语言模型在网页相关任务中表现出了很大的潜力，评估其在网页领域的性能仍然是一个挑战，因为缺乏全面的基准测试。本文引入了一个名为 ench {} 的多模式基准测试，其设计旨在评估 ML 近几年在网页任务中的能力。通过在 ench {} 上评估了 14 个开源 MLLMs，如 Gemini Pro、Claude-3 系列和 GPT-4V (ision)，我们揭示了重要挑战和性能差距。进一步的分析突出了当前 MLLMs 的限制，包括在文本丰富环境中缺乏足够的基础知识，并在低分辨率图像输入下表现不佳。我们相信 ench {} 将成为研究界宝贵的资源，并为网页相关应用的更加强大和多功能的 MLLMs 的创建做出贡献。

Apr, 2024

基于 Transformer 的维基百科图像标题匹配多模态提议与重新排序

本文介绍了我们为参加 Kaggle 上的 Wikipedia 图像 - 字幕匹配挑战而设计的系统，该系统使用与图像相关的数据（URL 和视觉数据）来在一个庞大的字幕库中找到正确的字幕。我们提出了两个基于 Transformer 模型的级联模型，能有效地推断查询图像数据与字幕之间的相关度，并通过广泛的实验验证了其在处理大量的图像和字幕时的效果，同时完成一定的验证时间复杂度。在 Kaggle 的私人排名中，我们的方法的标准化折扣累积增益值（nDCG）达到了 0.53。

Jun, 2022

一种基于主题感知的摘要生成框架，包含不同的模态侧面信息

本文提出了一个灵活的自动摘要模型，利用统一主题编码器和三元对比学习，将单一或多模侧面信息与文档在相同语义空间内对齐。在三个常用总结数据集上优于强基准线。

May, 2023

通过文本生成统一视觉语言任务

该研究提出了一个统一框架，通过相同的语言建模目标，在单个体系结构中学习不同的任务，实现视频图像理解、语言推理和标签生成等领域的应用。通过在多个基准测试中的表现，这种生成方法（在单个统一的体系结构下）显示出了与最先进的特定任务模型相当的性能，并且还显示了更好的推广能力和单个任务模型相似的多任务学习能力。

Feb, 2021

新闻故事：用视觉摘要来说明文章

该研究探索了一个新的问题，即学习对不同长度和数量的图像文本具有强鲁棒性的自我监督视觉语言表示法，其介绍了一个包括超过 31M 篇文章，22M 张图片和 1M 个视频的大规模多模态数据集，并表明最先进的图像文本对齐方法不能很好地处理带有多张图像和更长篇幅的叙述，且还提出了一种直观的基线方法，在 GoodNews 数据集上零样本图像集检索表现比这些方法高出 10%。

Jul, 2022

XWikiGen：低资源语言百科文本生成的跨语言摘要

本研究针对缺乏百科全书文本贡献者的问题，提出了一种基于多语言参考文章的跨语言多文档摘要生成任务，同时建立了一个基准数据集，并提出了一种基于神经网络的有监督和无监督摘要生成系统，实验表明多领域的训练要优于多语言的设置。

Mar, 2023

利用互联网优化大型语言模型

本文提出一种利用搜索引擎对大型语言模型进行网络增强的方法，通过自适应搜索引擎辅助学习和基于重要区间预测的连续知识学习任务，使模型在各种知识密集型任务中的性能表现显著优于基于检索的增强方法。

May, 2023