音频对话：用于音频和音乐理解的对话数据集

Apr, 2024

音频对话：用于音频和音乐理解的对话数据集

Audio Dialogues: Dialogues dataset for audio and music understanding

Arushi Goel, Zhifeng Kong, Rafael Valle, Bryan Catanzaro

TL;DR通过大型语言模型生成多轮对话，展示了音频理解中的复杂性和适用性。

Abstract

Existing datasets for audio understanding primarily focus on single-turn interactions (i.e. audio captioning, audio question answering) for describing audio in natural language, thus limiting understanding audio via interactive dialogue. To address this gap, we introduce →

audio understanding multi-turn dialogue dataset audio dialogues question-answer pairs large language model

发现论文，激发创造

音频 - 语言表示学习的大规模数据集

我们提出了一种基于公共工具或 API 的创新型自动音频说明生成流程，并构建了一个大规模、高质量的音频语言数据集 Auto-ACD，其中包含超过 190 万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务（包括音频语言检索、音频说明和环境分类）上的性能改进，证明了所提出数据集的有效性。此外，我们建立了一个新颖的测试集，并为音频文本任务提供了一个基准。该数据集将在此 https URL 上发布。

Sep, 2023

AudioSetMix: 用 LLM 辅助增强音频 - 语言数据集

我们通过增加自然语言标签和相应的音频信号处理操作，使用大型语言模型提供了一个高质量的训练数据集，该数据集在文本和音频相关模型的基准测试中提供了多样化且更好对齐的示例，从而改善了模型的性能。

May, 2024

DailyDialog：一个手工标注的多轮对话数据集

我们开发了一个高质量的多回合对话数据集 DailyDialog，包括人类编写的不太嘈杂的语言，反映我们日常交流方式并涵盖我们日常生活的各种主题。我们手动标记了这个数据集的通信意图和情感信息，并在 DailyDialog 数据集上评估现有的方法，希望它有益于对话系统的研究领域。

Oct, 2017

MMDialog：面向多模态开放领域对话的大规模多轮对话数据集

本文介绍了 MMDialog 数据集、提出并规范了两个基于检索和生成场景的反应生成任务，还构建了两个基线，并提出了一种新的评估指标 MM-Relevance，用于衡量多模态反应。

Nov, 2022

视听场景感知对话

本论文介绍了场景感知对话任务，通过视频和音频研究场景，并在对话历史中利用上下文线索，以回答关于场景的问题；同时提出了 AVSD 数据集，并通过多项定量和定性指标评估了基础模型的表现，结果表明模型必须充分利用所有可用输入（视频、音频、问题和对话历史）才能在该数据集上取得最佳表现。

Jan, 2019

DailyTalk: 用于会话文本转语音的口语对话数据集

本文介绍了 DailyTalk 这一高质量的会话 TTS 数据集，该数据集包含来自开放领域对话数据集 DailyDialog 的 2534 个对话，并扩展了 LST-CNN-TTS 模型，结果表明 DailyTalk 数据集可用作通用 TTS 数据集，并且基线模型可以表示 DailyTalk 中的上下文信息。

Jul, 2022

Ubuntu 对话语料库：一份用于非结构化多轮对话系统研究的大型数据集

介绍 Ubuntu 对话语料库，包含近 100 万个多轮对话，可以用于建立基于神经语言模型的对话管理器，同时提供适用于此数据集的两种神经学习架构，并在选择最佳下一个响应的任务上提供了基准表现。

Jun, 2015

用语义相关的图片替换文本构建多模式对话数据集

本文提出创建一种包含图像的 45k 多模态对话数据集的方法，该方法通过准备、预处理文本对话数据集、使用文本转图像技术创建混合图像对话，以及利用基于上下文相似性的过滤步骤确保数据集的上下文一致性。自动度量和人类评估结果表明，我们的数据集可以有效地用于多模态对话系统的训练，需要以上下文感知的方式理解图像和文本。

Jul, 2021

古腾堡对话数据集

本研究利用 Project Gutenberg 公共领域书籍中的对话构建了一个包括 14.8M 个语言表达的高质量对话数据集，分析并展示了对话提取管道的效果和误差分析。实验表明，训练我们的数据可以比训练更大但更嘈杂的 Opensubtitles 数据集在零射击和精调设置下取得更好的响应质量。同时，我们还建立了一个 Web 演示，通过调整各种平衡参数，研究人员可以构建他们版本的现有数据集。

Apr, 2020

直白真实对话：面对面交流的口语对话模型

本研究介绍了一种新颖的面对面口语对话模型，利用用户输入的音频 - 视觉语音并生成回应的音频 - 视觉语音，旨在创建一种不依赖中间文本的化身聊天机器人系统，并引入 MultiDialog，这是第一个包含约 340 小时近 9000 个对话的大规模多模态（音频和视觉）口语对话语料库。

Jun, 2024