AQUALLM：利用大型语言模型生成音频问答数据

Dec, 2023

AQUALLM：利用大型语言模型生成音频问答数据

AQUALLM: Audio Question Answering Data Generation Using Large Language Models

Swarup Ranjan Behera, Krishna Mohan Injeti, Jaya Sai Kiran Patibandla, Praveen Kumar Pokala, Balakrishna Reddy Pailla

TL;DR这篇研究论文介绍了一种基于大型语言模型的可伸缩的 AQA 数据生成流程 (AQUALLM 框架)，利用现有的音频描述注释并结合最先进的语言模型生成了丰富、高质量的 AQA 数据集，同时提供了三个广泛和高质量的 AQA 基准数据集，该框架和数据集推动了 AQA 研究的进展，并且所训练的模型在性能上优于现有的最先进模型，而且相比人工注释的训练数据，本数据集上训练的模型表现出更强的泛化能力。

Abstract

audio question answering (AQA) constitutes a pivotal task in which machines analyze both audio signals and natural language questions to produce precise natural language answers. The significance of possessing high-quality, diverse, and extensive →

audio question answering aqa datasets aquallm framework large language models benchmark datasets

发现论文，激发创造

音乐理解 LLaMA：通过问题回答和字幕提升文本至音乐生成

文中提出的 MU-LLaMA 模型通过 MusicQA 数据集的训练，在音乐问答和音乐配音生成方面取得了出色的表现，超越了当前领先的模型，并为 T2M-Gen 研究领域带来了有希望的进展。

Aug, 2023

面向多语言音视频问答

本文旨在将音视频问答（AVQA）扩展到多语言环境。我们利用机器翻译提出了两个多语言 AVQA 数据集，涵盖了八种语言，并引入了 MERA 框架，该框架利用了先进的视频、音频和文本基础模型来进行多语言 AVQA 的基准测试。我们相信这项工作将开辟新的研究方向，并为未来的多语言 AVQA 提供参考基准。

Jun, 2024

MLQA：评估跨语言抽取式问答

该研究提出了一个名为 MLQA 的多语言提取式问答（QA）评估基准，旨在推动跨语言 QA 研究。 MLQA 包含 7 种语言的 QA 实例，并使用一种新颖的对齐上下文策略，基于 Wikipedia 文章构建，以此作为现有提取式 QA 数据集的跨语言扩展。

Oct, 2019

通过生成性数据增强提高特定领域问答小语言模型的效果：Dr. LLaMA

介绍了 Dr. LLaMA，这是一种通过使用大型语言模型进行生成式数据增强来改善小型语言模型的方法，主要关注医学问答任务和 PubMedQA 数据集。研究表明，LLMs 可以有效地改善和多样化问题 - 答案对，从而在微调后使得规模更小的模型获得更好的领域特定 QA 数据集性能。该研究特别强调了在领域特定的问答任务中使用 LLMS 所面临的挑战，并建议了解决这些限制的潜在研究方向，旨在创建更高效、更有能力的专门应用模型。

May, 2023

强化大型语言模型在工业领域特定问题回答上的表现

本研究提供了一个基于微软产品和技术问题的产业特定 QA 知识的检测基准 MSQA，旨在评估旨在提高 LLM 领域特定能力的方法。此外，我们提出了一种新的模型交互范式，可以使 LLM 在不熟练的领域特定任务上实现更好的性能。实验表明，遵循我们的模型融合框架的方法优于常用的检索方法的 LLM。

May, 2023

利用大型语言模型的多角色能力进行面向开放领域的问答

开放领域问答（ODQA）作为信息系统中的关键研究领域已经崛起。现有方法采用两种主要范式来收集证据：（1）“先检索然后阅读” 范式从外部语料库中检索相关文档；（2）“先生成然后阅读” 范式使用大型语言模型（LLMs）生成相关文档。然而，两者都无法完全满足证据的多方面需求。因此，本文提出了 LLMQA，一种通用框架，将 ODQA 过程分为三个基本步骤：查询扩展、文档选择和答案生成，结合了基于检索和基于生成的证据的优势。由于 LLMs 展示了在各种任务中表现出的出色能力，我们在框架中指导 LLMs 担任多个角色，作为生成器、重新排序器和评估器，集成它们在 ODQA 过程中的协作。此外，我们引入了一种新颖的提示优化算法，以改进角色扮演提示，引导 LLMs 生成更高质量的证据和答案。在广泛使用的基准测试（NQ、WebQ 和 TriviaQA）上进行的大量实验结果表明，LLMQA 在答案准确性和证据质量方面达到了最佳表现，展示了其推进 ODQA 研究和应用的潜力。

Mar, 2024

CaLMQA: 跨 23 种语言探索跨文化特定长篇问答

通过介绍 CaLMQA，一个涵盖 23 种语言的 2.6K 多样化问题集，我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降，这突显了 LLM 多语言能力和非英语长篇问题回答评估中进一步研究的需求。

Jun, 2024

走向更加公平的问答系统：需要多少更多的数据？

本研究探讨如何通过自动翻译和排列组合技术将已有的数据资源应用到多语种的问答系统中，并进行深入分析和提出未来数据集开发的建议，以提高多语种问答系统的覆盖面。

May, 2021

QAmeleon：仅使用 5 个样本的多语言问答

QAmeleon 使用预训练语言模型 PLM 自动生成多语言数据来训练 QA 模型，从而避免昂贵的注释成本，在低资源环境中优于直接使用手动标注的示例进行 QA 模型微调的方式，并在 TyDiQA-GoldP 和 MLQA 基准测试中实现了高准确性的问答。

Nov, 2022

利用大型语言模型和检索加强生成来提高教科书问答任务

该论文提出了一种利用检索增强生成技术和迁移学习来处理教科书问答中领域外情况的方法，以处理复杂的语境和多模态数据，并改善推理能力。通过对 Llama-2 模型进行监督微调和引入 RAG，我们的架构在非图表多项选择题中相较于基线模型，在验证集上精度提升了 4.12%，在测试集上提升了 9.84%。

Feb, 2024