使用预训练语言模型集成的简答评分

Feb, 2022

使用预训练语言模型集成的简答评分

Short-answer scoring with ensembles of pretrained language models

Christopher Ormerod

TL;DR本研究探讨了利用 Kaggle 自动化短问题评分数据集，通过微调一系列的小型、基础型、大型预训练 Transformer 语言模型，并训练一个特征模型来测试这些模型的集成的有效性。观察到较大的模型通常表现稍好，但它们仍无法自己达到最优结果，只有通过大量网络集成才能产生最优结果，但这些集成过于庞大，无法应用于实际生产环境。

Abstract

We investigate the effectiveness of ensembles of pretrained transformer-based language models on short answer questions using the Kaggle Automated Short Answer Scoring dataset. We fine-tune a collection of popular small, base, and large →

pretrained transformer-based language models short answer questions automated scoring ensemble models hyperparameter optimization

发现论文，激发创造

基于 Transformer 的语言模型在抽取式问答中的比较研究

本文旨在研究和比较不同的预训练语言模型在回答问题的能力上的表现，通过使用 Bert-BiLSTM 结构模型的效果来检验双向流的加入是否能够提高模型性能，并发现 RoBERTa 和 BART 表现最佳。

Oct, 2021

利用 Transformer 的双向编码表示进行答案选择

本文探讨了在大规模数据集上对 transformer 模型进行语言模型的预训练，并在 QA 和 CQA 数据集上微调 BERT 模型进行答案选择任务，在 QA 数据集中观察到了最大 13.1% 的提升，在 CQA 数据集中观察到了最大 18.7% 的提升。

Nov, 2020

BERTSel：基于预训练模型的答案选择

使用预训练模型 BERT 进行微调以提高答案选择任务的性能并在五个数据集上获得 STOA 结果

May, 2019

通过迭代一致性组合预训练模型集合

本文提出了一种基于闭环迭代一致优化的框架，将不同的预训练模型组合在一起，以零样本方式解决各种多模态问题，该框架通过生成器和评分器的迭代反馈，使模型之间通过沟通逐渐纠正错误，形成一致性，从而显著提高下游任务的性能。

Oct, 2022

跨领域自动术语提取中的 Transformer 集成

本文在多语言跨领域设置中，提出了基于 Transformers 预训练语言模型的术语抽取的预测能力的比较研究。实验结果表明，除了荷兰语和法语之外，在所有语言中应用单语言模型的策略优于利用多语言模型的最先进方法。此外，将两个最佳模型的输出组合起来，可以取得显著的改进。

Dec, 2022

低数据迁移学习的深度集成

本文探讨了从预训练模型中创建集成模型的不同方法，并提出了一种有效的算法来识别下游数据集的预训练模型子集。在 19 项下游任务中（视觉任务适应基准），即使从超过 2000 个预训练模型中进行选择，其实现了具有较低推理预算的最先进性能，并且在 ImageNet 变体上对分布转移具有更好的鲁棒性。

Oct, 2020

预训练变压器在知识图谱上进行简单问答

本研究通过对知识图谱建立的基于神经网络（包括 BERT 和 BiLSTM）的简单问题回答模型进行评估，探究在数据稀疏的情况下 BERT 模型的表现。

Jan, 2020

自适应精调 Transformer 集成模型用于 LLM 生成文本检测

大语言模型生成文本内容的多样性接近于人类的能力，因此为了避免潜在的风险如社交媒体上的假新闻，需要有效的假文本检测。本研究通过在内部和外部分布数据集上测试五种专门的基于 Transformer 的模型来研究它们在 LLM 生成文本检测任务中的性能和泛化能力。结果表明，单个基于 Transformer 的分类器在内部数据集上取得了不错的性能，但在外部数据集上的泛化能力有限。为了改进这一点，我们使用自适应集成算法结合了个体分类器模型，将在内部测试集上的平均准确率从 91.8% 提高到 99.2%，在外部测试集上的准确率从 62.9% 提高到 72.5%。结果表明自适应集成算法在 LLM 生成文本检测中具有有效性、良好的泛化能力和巨大的潜力。

Mar, 2024

ANNA: 增强语言表达能力用于问答

本文中，我们展示了数据处理、预训练任务、神经网络建模或微调的方法如何单独影响性能，以及当这些方法共同考虑预训练模型时，语言模型在特定的问答任务上表现出最佳结果；具体地，我们提出了一种扩展的预训练任务和一种新的邻居感知机制，能更多地关注邻近的标记，从而捕捉预训练语言建模的上下文丰富性。我们的最佳模型在 SQuAD 1.1 上实现了 95.7％的 F1 和 90.6％的 EM，也在 SQuAD 2.0 基准上超过了现有的预训练语言模型，如 RoBERTa，ALBERT，ELECTRA 和 XLNet。

Mar, 2022

简约即佳，规模不足为奇：面向基础语言模型的集成

基于大型 FLMs 的小型 FLMs 的潜力是基于同一基础的，通过集成技术可以影响 FLMs 的关注点，揭示不同 FLMs 的协作与合作的能力，我们发现深度集成的 BERT 通过使用心理健康等敏感领域的数据，相对于其大型版本 BERTlarge，具有倍数倍的性能优势。

Aug, 2023