测试时间自适应的小型语言模型在问答中的应用

EMNLPOct, 2023

测试时间自适应的小型语言模型在问答中的应用

Test-Time Self-Adaptive Small Language Models for Question Answering

Soyeong Jeong, Jinheon Baek, Sukmin Cho, Sung Ju Hwang, Jong C. Park

TL;DR通过使用未标记的测试数据，我们展示并研究了仅凭借未标记的测试数据的自适应语言模型的能力。我们首先随机生成多个答案，然后在过滤掉低质量样本的同时将它们集成在一起，以减轻不准确标签引入的噪声。我们提出的自适应策略在基准问答数据集上表现出了显著的性能改进，对于多样的提示更具鲁棒性，使语言模型保持稳定。

Abstract

Recent instruction-finetuned large language models (LMs) have achieved notable performances in various tasks, such as question-answering (QA). However, despite their ability to memorize a vast amount of general k

instruction-finetuned large language models question-answering self-adaptive lms unlabeled test data performance improvements

发现论文，激发创造

无监督的问答模型自适应

通过无监督的大语言模型适应，研究论文探索了在不同目标领域中提供正确答案的问题回答，并研究了输入标记替换等方法来部分缓解中间和末尾信息获取的困难。

Feb, 2024

通过生成性数据增强提高特定领域问答小语言模型的效果：Dr. LLaMA

介绍了 Dr. LLaMA，这是一种通过使用大型语言模型进行生成式数据增强来改善小型语言模型的方法，主要关注医学问答任务和 PubMedQA 数据集。研究表明，LLMs 可以有效地改善和多样化问题 - 答案对，从而在微调后使得规模更小的模型获得更好的领域特定 QA 数据集性能。该研究特别强调了在领域特定的问答任务中使用 LLMS 所面临的挑战，并建议了解决这些限制的潜在研究方向，旨在创建更高效、更有能力的专门应用模型。

May, 2023

大型语言模型可自我提升

本文提出了一种方法，使用未标注的数据进行自我训练和推理提高，通过 fine-tuning 在多个任务上达到了 SOTA 水平。

Oct, 2022

自我评估适配提高 LLMs 的选择性预测能力

基于自评估的自适应选可信度模型，通过使用参数高效调整适应大型语言模型到特定任务，提高其自评估能力，以改善选择性预测性能。在多种问答数据集上的评估结果显示，该方法优于现有的选择预测方法。

Oct, 2023

抓住你！不要用無法回答的問題來騙我！自校准的大型語言模型用於回答未知問題

通过自体对齐方法，本文提出一种新颖且可扩展的方法以增强大型语言模型对不同类型未知问题的回答能力，不仅能够拒绝回答，还能提供关于无法回答的解释。实验结果验证了该方法在两个数据集上针对四种未知问题类型的三种任务形式方面优于现有基准模型。

Feb, 2024

强化大型语言模型在工业领域特定问题回答上的表现

本研究提供了一个基于微软产品和技术问题的产业特定 QA 知识的检测基准 MSQA，旨在评估旨在提高 LLM 领域特定能力的方法。此外，我们提出了一种新的模型交互范式，可以使 LLM 在不熟练的领域特定任务上实现更好的性能。实验表明，遵循我们的模型融合框架的方法优于常用的检索方法的 LLM。

May, 2023

自适应 - RAG: 通过问题复杂性学习适应检索增强大型语言模型

本研究提出了一个新颖的适应性问答框架，可以根据查询的复杂性动态选择最合适的策略，该策略可在回答问题时无缝地在迭代和单步检索增强型大型语言模型之间进行调整，同时适应多种查询复杂性，提高问答系统的效率和准确性。

Mar, 2024

自问自答：无监督知识引导的语言模型对齐

本文介绍了一种称为 Self-QA 的创新框架，利用大量无监督知识代替传统的人工撰写指导文件种子，从而生成更多正确和特定于领域的指导数据，以克服创建用于指导调整的监督配对问答数据所面临的挑战。

May, 2023

StreamingQA：面向问答模型随时间适应新知识的基准测试

本文创建了一个大规模的数据集 StreamingQA，以研究半参数问答模型在面对不断更新的知识时如何适应，并发现在适应过程中，参数化模型可以通过更新而不是完全重新训练来避免灾难性遗忘，但是过时的参数化 LMs 会使半参数模型性能下降。

May, 2022

基于不确定性的选择性问题回答语言建模

我们提出了一种自动化的大语言模型（LLM）转换方法，可以产生能够在每个预测中估计不确定性的具有不确定性感知能力的 LLM。我们的方法与模型和数据无关，计算效率高，不依赖外部模型或系统。我们在选择性问答环境下评估了转换模型，即尽可能回答问题同时保持给定的准确性，在必要时放弃提供预测。作为我们结果的一部分，我们在 SQuAD 抽取式问答任务和 TruthfulQA 生成式问答任务上测试了 BERT 和 Llama 2 模型变体。我们表明，使用我们方法提供的不确定性估计有选择性地回答问题，可以显著提高准确性，相比直接使用模型概率。

Nov, 2023