通过生成性数据增强提高特定领域问答小语言模型的效果：Dr. LLaMA

May, 2023

通过生成性数据增强提高特定领域问答小语言模型的效果：Dr. LLaMA

Dr. LLaMA: Improving Small Language Models in Domain-Specific QA via Generative Data Augmentation

Zhen Guo, Peiqi Wang, Yanwei Wang, Shangdi Yu

TL;DR介绍了 Dr. LLaMA，这是一种通过使用大型语言模型进行生成式数据增强来改善小型语言模型的方法，主要关注医学问答任务和 PubMedQA 数据集。研究表明，LLMs 可以有效地改善和多样化问题 - 答案对，从而在微调后使得规模更小的模型获得更好的领域特定 QA 数据集性能。该研究特别强调了在领域特定的问答任务中使用 LLMS 所面临的挑战，并建议了解决这些限制的潜在研究方向，旨在创建更高效、更有能力的专门应用模型。

Abstract

large language models (LLMs) have made significant strides in natural language processing but face challenges in terms of computational expense and inefficiency as they grow in size, especially in domain-specific tasks. Small Language Models (SLMs), on the other hand, often struggle in

large language models small language models dr. llama generative data augmentation medical question-answering

发现论文，激发创造

MedLM：探索面向医学问答系统的语言模型

本研究通过比较一般性和专用于医学问答的精简语言模型的性能，旨在填补这方面的空白，并评估不同语言模型家族的性能，以探讨这些模型在医学问答领域的可靠性、比较性能和有效性，从而为不同语言模型在医学领域的特定应用提供有价值的见解。

Jan, 2024

有监督的知识提升大语言模型在上下文学习中的表现

通过提示工程，大型语言模型（LLMs）展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而，在自然语言理解和问题回答方面，提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。

Dec, 2023

生成数据增强利用 LLMs 改善问答中的分布鲁棒性

通过实验证明生成数据对阅读理解数据集的扩充可以更好地提高对自然分布变化的鲁棒性。

Sep, 2023

强化大型语言模型在工业领域特定问题回答上的表现

本研究提供了一个基于微软产品和技术问题的产业特定 QA 知识的检测基准 MSQA，旨在评估旨在提高 LLM 领域特定能力的方法。此外，我们提出了一种新的模型交互范式，可以使 LLM 在不熟练的领域特定任务上实现更好的性能。实验表明，遵循我们的模型融合框架的方法优于常用的检索方法的 LLM。

May, 2023

无监督的问答模型自适应

通过无监督的大语言模型适应，研究论文探索了在不同目标领域中提供正确答案的问题回答，并研究了输入标记替换等方法来部分缓解中间和末尾信息获取的困难。

Feb, 2024

Dial-insight：用高质量领域专用数据进行精细调整，防止能力崩溃的大型语言模型

我们提出了一个双阶段方法来构建高质量数据的生产提示，通过该方法可以增强一般大型语言模型的特定领域能力，而不损害其总体泛化能力。

Mar, 2024

测试时间自适应的小型语言模型在问答中的应用

通过使用未标记的测试数据，我们展示并研究了仅凭借未标记的测试数据的自适应语言模型的能力。我们首先随机生成多个答案，然后在过滤掉低质量样本的同时将它们集成在一起，以减轻不准确标签引入的噪声。我们提出的自适应策略在基准问答数据集上表现出了显著的性能改进，对于多样的提示更具鲁棒性，使语言模型保持稳定。

Oct, 2023

PMC-LLaMA：在医学论文中进一步微调 LLaMA

介绍了 PMC-LLaMA, 一种在 4.8 百万篇生物医学论文上 fine-tuning 得到的语言模型，用于注入医学知识，提高在医学领域的性能，经过初步试验后在生物医学数据集上表现出更好的理解生物医学特定概念，在 QA 基准上表现出高性能。

Apr, 2023

利用 LLM 提升条件问答

该研究探讨了大型语言模型 (LLMs) 在具有挑战性的条件问答领域中的能力和局限性。利用条件问答 (CQA) 数据集，重点关注 T5 和 UL2 等生成模型，我们评估了 LLMs 在不同问题类型上的性能。研究发现，经过微调的 LLMs 在某些情况下可以超越现有技术在一些方面的表现，即使没有完全编码所有输入上下文，对于是 / 否问题的精确匹配 (EM) 和 F1 分数有 7-8 个点的增加。然而，这些模型在抽取性问答方面遇到了挑战，在与现有技术相比落后于 10 个以上的点，并且在减少注入错误信息的风险方面也存在问题。与神谕检索器进行的一项研究强调了有效证据检索的关键作用，强调了该领域需要先进解决方案的必要性。此外，我们强调了评估评价指标对性能评估的重要影响，并倡导使用更全面的评估框架。任务的复杂性、观察到的性能差异以及在条件问答任务中改进训练任务和探索基于提示的技术以提高 LLMs 性能的未来工作的需求，突显了这一领域面临的持续挑战。

Dec, 2023

律师 LLaMA 技术报告

本文研究了如何在持续训练过程中注入领域知识以及如何设计正确的监督微调任务来帮助模型解决实际问题，在加入检索模块并提取相关文献的情况下，我们的模型可以更可靠地生成答案。

May, 2023