强化大型语言模型在工业领域特定问题回答上的表现

May, 2023

强化大型语言模型在工业领域特定问题回答上的表现

Empower Large Language Model to Perform Better on Industrial Domain-Specific Question Answering

Zezhong Wang, Fangkai Yang, Pu Zhao, Lu Wang, Jue Zhang...

TL;DR本研究提供了一个基于微软产品和技术问题的产业特定 QA 知识的检测基准 MSQA，旨在评估旨在提高 LLM 领域特定能力的方法。此外，我们提出了一种新的模型交互范式，可以使 LLM 在不熟练的领域特定任务上实现更好的性能。实验表明，遵循我们的模型融合框架的方法优于常用的检索方法的 LLM。

Abstract

large language model (LLM) has gained popularity and achieved remarkable results in open-domain tasks, but its performance in real industrial domain-specific scenarios is average since there is no specific knowle

large language model domain-specific benchmark question answering msqa

发现论文，激发创造

利用大型语言模型的多角色能力进行面向开放领域的问答

开放领域问答（ODQA）作为信息系统中的关键研究领域已经崛起。现有方法采用两种主要范式来收集证据：（1）“先检索然后阅读” 范式从外部语料库中检索相关文档；（2）“先生成然后阅读” 范式使用大型语言模型（LLMs）生成相关文档。然而，两者都无法完全满足证据的多方面需求。因此，本文提出了 LLMQA，一种通用框架，将 ODQA 过程分为三个基本步骤：查询扩展、文档选择和答案生成，结合了基于检索和基于生成的证据的优势。由于 LLMs 展示了在各种任务中表现出的出色能力，我们在框架中指导 LLMs 担任多个角色，作为生成器、重新排序器和评估器，集成它们在 ODQA 过程中的协作。此外，我们引入了一种新颖的提示优化算法，以改进角色扮演提示，引导 LLMs 生成更高质量的证据和答案。在广泛使用的基准测试（NQ、WebQ 和 TriviaQA）上进行的大量实验结果表明，LLMQA 在答案准确性和证据质量方面达到了最佳表现，展示了其推进 ODQA 研究和应用的潜力。

Mar, 2024

无监督的问答模型自适应

通过无监督的大语言模型适应，研究论文探索了在不同目标领域中提供正确答案的问题回答，并研究了输入标记替换等方法来部分缓解中间和末尾信息获取的困难。

Feb, 2024

通过生成性数据增强提高特定领域问答小语言模型的效果：Dr. LLaMA

介绍了 Dr. LLaMA，这是一种通过使用大型语言模型进行生成式数据增强来改善小型语言模型的方法，主要关注医学问答任务和 PubMedQA 数据集。研究表明，LLMs 可以有效地改善和多样化问题 - 答案对，从而在微调后使得规模更小的模型获得更好的领域特定 QA 数据集性能。该研究特别强调了在领域特定的问答任务中使用 LLMS 所面临的挑战，并建议了解决这些限制的潜在研究方向，旨在创建更高效、更有能力的专门应用模型。

May, 2023

MedExpQA: 多语言大型语言模型在医疗问题回答方面的基准评估

该论文介绍了 MedExpQA，一个基于医学考试的多语言基准，用于评估大型语言模型在医学问答中的表现，并指出目前大型语言模型的性能还有很大的改进空间，特别是对于英语以外的语言。同时，该研究还强调了获取和整合可用的医学知识对于医学问答的后续评估结果具有困难，并呼吁进一步开发其他语言的基准。

Apr, 2024

ToolQA: 一个带有外部工具的 LLM 问答数据集

为了有效评估 Large Language Models（LLMs）使用外部工具回答问题的能力，我们开发了一个名为 ToolQA 的新数据集，并使用可伸缩的自动化过程进行数据集的管理，并使用 13 种专门设计的工具进行交互以回答问题。

Jun, 2023

长尾知识的自动问答生成

通过预训练大型语言模型解决普适领域问答中的常见知识和罕见长尾知识学习难题，我们提出了一种自动生成专门用于长尾知识的问答数据集的自动方法，并展示了相关的研究挑战。通过预训练语言模型，在我们新生成的长尾问答数据集上进行了详尽实验，比较了其使用维基百科和维基数据知识图等外部资源的性能。

Mar, 2024

利用 LLM 提升条件问答

该研究探讨了大型语言模型 (LLMs) 在具有挑战性的条件问答领域中的能力和局限性。利用条件问答 (CQA) 数据集，重点关注 T5 和 UL2 等生成模型，我们评估了 LLMs 在不同问题类型上的性能。研究发现，经过微调的 LLMs 在某些情况下可以超越现有技术在一些方面的表现，即使没有完全编码所有输入上下文，对于是 / 否问题的精确匹配 (EM) 和 F1 分数有 7-8 个点的增加。然而，这些模型在抽取性问答方面遇到了挑战，在与现有技术相比落后于 10 个以上的点，并且在减少注入错误信息的风险方面也存在问题。与神谕检索器进行的一项研究强调了有效证据检索的关键作用，强调了该领域需要先进解决方案的必要性。此外，我们强调了评估评价指标对性能评估的重要影响，并倡导使用更全面的评估框架。任务的复杂性、观察到的性能差异以及在条件问答任务中改进训练任务和探索基于提示的技术以提高 LLMs 性能的未来工作的需求，突显了这一领域面临的持续挑战。

Dec, 2023

MedLM：探索面向医学问答系统的语言模型

本研究通过比较一般性和专用于医学问答的精简语言模型的性能，旨在填补这方面的空白，并评估不同语言模型家族的性能，以探讨这些模型在医学问答领域的可靠性、比较性能和有效性，从而为不同语言模型在医学领域的特定应用提供有价值的见解。

Jan, 2024

面向开放域问答的自我提示大语言模型

本文提出了一种基于大型语言模型的自我点拨框架 (Self-Prompting framework)，使得在开放域下的问答任务 (Open-Domain Question Answering) 可以在不需要训练数据和外部知识库的情况下实现，采用该方法在三个广泛使用的 ODQA 数据集上，实验结果优于之前的最先进方法，在 EM 指标上平均提高了 8.8 个百分点，并且能够实现与多种检索增强的微调模型相比较的性能。

Dec, 2022

让 LLMs 应对最新挑战！一个中文动态问答基准测试

为了提高中文大型语言模型（LLMs）的问答能力，本文引入了 CDQA，这是一个包含与中国互联网最新新闻相关的问答对的中文动态问答基准，通过人工和模型相结合的流程获得高质量的数据，根据答案变化的频率仔细分类样本以便更精细地观察 LLMs 的能力，我们还评估和分析了 CDQA 上的主流和先进的中文 LLMs，广泛的实验和有价值的见解表明我们提出的 CDQA 是具有挑战性和值得进一步研究的，我们相信我们提供的基准将成为未来改善 LLMs 中文问答能力的关键数据资源。

Feb, 2024