LUMA: 一个用于学习不确定和多模态数据的基准数据集

Jun, 2024

LUMA: 一个用于学习不确定和多模态数据的基准数据集

LUMA: A Benchmark Dataset for Learning from Uncertain and Multimodal Data

Grigor Bezirganyan, Sana Sellami, Laure Berti-Équille, Sébastien Fournier

TL;DR多模态深度学习通过整合文本、图像、音频和视频等多元信息源增强决策能力。为了开发可靠的多模态方法，了解不确定性如何影响这些模型至关重要。我们介绍了 LUMA 数据集，它是一个独特的基准数据集，其中包含来自 50 个类别的音频、图像和文本数据，用于从不确定和多模态数据中学习。该数据集扩展了著名的 CIFAR 10/100 数据集，其中包含从三个音频语料库中提取的音频样本，以及使用 Gemma-7B 大型语言模型 (LLM) 生成的文本数据。LUMA 数据集可以在实验和基准测试活动中有计划地注入不同类型和程度的不确定性，以实现个性化的实验和评估。LUMA 还作为一个 Python 软件包提供，其中包含用于生成数据集的多个变种的函数，可以控制数据的多样性、每种模态的噪声量以及添加超出分布范围的样本。同时还提供了一个基线预训练模型以及三种不确定性量化方法：Monte-Carlo Dropout、Deep Ensemble 和 Reliable Conflictive Multi-View Learning。这个全面的数据集及其工具旨在推动和支持可靠和鲁棒的多模态深度学习方法的发展和基准测试。

Abstract

multimodal deep learning enhances decision-making by integrating diverse information sources, such as texts, images, audio, and videos. To develop trustworthy multimodal approaches, it is essential to understand how unc

multimodal deep learning uncertainty luma dataset audio, image, and textual data trustworthy and robust multimodal deep learning approaches

发现论文，激发创造

LAMM: 多模态指导语言调整数据集，框架和基准测试

这篇研究将大型语言模型（MLLM）扩展到处理点云，建立了 LAMM 数据集和基准，为 MLLM 建立了可扩展的框架以适用于额外的模态，任务和领域。

Jun, 2023

MELINDA: 生物医学实验方法分类的多模态数据集

本文介绍了一个新的多模态生物医学实验方法分类数据集 MELINDA，并使用各种最先进的自然语言处理和计算机视觉模型进行了基准测试和分析，结果表明多模态模型优于单模态模型，但仍需要改进，特别是在视觉和语言语义互相理解和转化方面以及在处理低资源域时。该文还发布了数据集和基准测试，以便未来的多模态学习研究，特别是针对科学领域的应用的目标改进的激励。

Dec, 2020

多模态不确定性感知视觉 - 语言预训练模型

本文通过概率分布编码器（PDE）将所有模态的表示作为概率分布映射，对不确定性建模，提出了基于概率分布的预训练任务并在视觉和语言联合任务上实现了最先进的结果。

Oct, 2022

MultiBench: 多模态表示学习的多尺度基准

MultiBench 是一个系统性和统一化的基准测试，跨越 15 个数据集，10 种模态，20 种预测任务和 6 个研究领域。MultiBench 提供自动化的端到端机器学习流程，简化和标准化数据加载，实验设置和模型评估。随着大量的实践证明，不同研究领域提出的方法可以改善 9/15 数据集的最先进性能。MultiBench 处理了跨模态一般化，复杂性和健壮性的问题，对于未来研究具有重要的挑战性，包括可扩展性到大规模多模态数据集和对现实缺陷的健壮性。

Jul, 2021

多模态大型语言模型的数据中心视角调查

本综述以数据为中心的视角全面回顾多模态大型语言模型的文献，探索了在多模态数据准备、预训练和适应阶段的方法，分析了数据集的评估方法和评估多模态大型语言模型的基准。此外，本综述还概述了未来的研究方向，以便为研究人员提供对多模态大型语言模型的数据驱动方面的详细理解，推动该领域的进一步探索和创新。

May, 2024

MUSES：驾驶不确定性条件下的多传感器语义感知数据集

在自动驾驶汽车中实现第五级驾驶自动化需要一个强大的语义视觉感知系统，它能够解析来自不同传感器的数据，并适应多种条件。为了解决现有语义感知数据集中通常缺乏自动驾驶汽车中常用的重要非相机模式，或者未能利用这些模式来帮助和改善具有挑战性条件下的语义注释的问题，我们引入了 MUSES，即用于在恶劣条件下以增加的不确定性驾驶的多传感器语义感知数据集。MUSES 包括在多样化的天气和照明条件下捕获的 2500 张图像的同步多模态记录，并具有 2D 全景注释。该数据集整合了帧相机、激光雷达、雷达、事件相机和 IMU/GNSS 传感器。我们的新型两阶段全景注释协议捕捉了真实值中的类别级别和实例级别的不确定性，引入了我们的新任务 —— 不确定性感知全景分割，并同时提供标准的语义分割和全景分割。MUSES 在多样的视觉条件下既对训练有效又具有挑战性，为多模态和不确定性感知中的研究开辟了新的途径。我们的数据集和基准将公开提供。

Jan, 2024

AudioSetMix: 用 LLM 辅助增强音频 - 语言数据集

我们通过增加自然语言标签和相应的音频信号处理操作，使用大型语言模型提供了一个高质量的训练数据集，该数据集在文本和音频相关模型的基准测试中提供了多样化且更好对齐的示例，从而改善了模型的性能。

May, 2024

大规模多语言多模态摘要数据集

该研究介绍了目前最大的多语言多模态摘要数据集 (M3LS)，该数据集由超过一百万个来自 BBC 的新闻文章组成，跨越 20 种语言，目标在于 5 个语言根上的多样性。研究者们利用该数据集定义了一项多语言多模态摘要任务，并在多语言环境下使用各种最先进的摘要技术报告了基准分数。

Feb, 2023

mOSCAR：一个大规模的多语言和多模态的文档级语料库

Multimodal Large Language Models (mLLMs) that are trained on caption-like and interleaved text-image data, such as mOSCAR, show improved in-context learning capabilities, boost in few-shot learning performance across various multilingual image-text tasks and benchmarks, and address the limitation of current multilingual and multimodal datasets.

Jun, 2024

Lumos：具有统一数据、模块化设计和开源 LLMs 的学习代理

引入 Lumos 是一个新颖的框架，用于训练语言代理，它采用统一的数据格式和基于开源大规模语言模型（LLMs）的模块化架构。Lumos 包括规划、基础和执行三个不同的模块，通过高质量的子目标和动作的注释进行训练，实现了与当前的最先进代理相当或更好的性能，并具有多个关键优势。

Nov, 2023