多级多模态网页理解的生成式任务套件
通过保留完整的图像、文本和结构数据,Wikipedia Webpage 2M(WikiWeb2M)套件旨在研究多模式网页理解,如页面描述生成、部分摘要和上下文图像说明。
May, 2023
提出了一种用于网页理解和 HTML 代码翻译的基准测试以及多模态大型语言模型的能力评估框架,包括预训练语言模型增强现有数据集和生成新网页图像等内容,并通过广泛实验证明了该数据集的价值。
Jun, 2024
多模式大型语言模型在网页相关任务中表现出了很大的潜力,评估其在网页领域的性能仍然是一个挑战,因为缺乏全面的基准测试。本文引入了一个名为 ench {} 的多模式基准测试,其设计旨在评估 ML 近几年在网页任务中的能力。通过在 ench {} 上评估了 14 个开源 MLLMs,如 Gemini Pro、Claude-3 系列和 GPT-4V (ision),我们揭示了重要挑战和性能差距。进一步的分析突出了当前 MLLMs 的限制,包括在文本丰富环境中缺乏足够的基础知识,并在低分辨率图像输入下表现不佳。我们相信 ench {} 将成为研究界宝贵的资源,并为网页相关应用的更加强大和多功能的 MLLMs 的创建做出贡献。
Apr, 2024
本文介绍了我们为参加 Kaggle 上的 Wikipedia 图像 - 字幕匹配挑战而设计的系统,该系统使用与图像相关的数据(URL 和视觉数据)来在一个庞大的字幕库中找到正确的字幕。我们提出了两个基于 Transformer 模型的级联模型,能有效地推断查询图像数据与字幕之间的相关度,并通过广泛的实验验证了其在处理大量的图像和字幕时的效果,同时完成一定的验证时间复杂度。在 Kaggle 的私人排名中,我们的方法的标准化折扣累积增益值(nDCG)达到了 0.53。
Jun, 2022
本文提出了一个灵活的自动摘要模型,利用统一主题编码器和三元对比学习,将单一或多模侧面信息与文档在相同语义空间内对齐。 在三个常用总结数据集上优于强基准线。
May, 2023
该研究提出了一个统一框架,通过相同的语言建模目标,在单个体系结构中学习不同的任务,实现视频图像理解、语言推理和标签生成等领域的应用。通过在多个基准测试中的表现,这种生成方法(在单个统一的体系结构下)显示出了与最先进的特定任务模型相当的性能,并且还显示了更好的推广能力和单个任务模型相似的多任务学习能力。
Feb, 2021
该研究探索了一个新的问题,即学习对不同长度和数量的图像文本具有强鲁棒性的自我监督视觉语言表示法,其介绍了一个包括超过 31M 篇文章,22M 张图片和 1M 个视频的大规模多模态数据集,并表明最先进的图像文本对齐方法不能很好地处理带有多张图像和更长篇幅的叙述,且还提出了一种直观的基线方法,在 GoodNews 数据集上零样本图像集检索表现比这些方法高出 10%。
Jul, 2022
本研究针对缺乏百科全书文本贡献者的问题,提出了一种基于多语言参考文章的跨语言多文档摘要生成任务,同时建立了一个基准数据集,并提出了一种基于神经网络的有监督和无监督摘要生成系统,实验表明多领域的训练要优于多语言的设置。
Mar, 2023
本文提出一种利用搜索引擎对大型语言模型进行网络增强的方法,通过自适应搜索引擎辅助学习和基于重要区间预测的连续知识学习任务,使模型在各种知识密集型任务中的性能表现显著优于基于检索的增强方法。
May, 2023