使用预训练语言模型集成的简答评分
本文旨在研究和比较不同的预训练语言模型在回答问题的能力上的表现,通过使用 Bert-BiLSTM 结构模型的效果来检验双向流的加入是否能够提高模型性能,并发现 RoBERTa 和 BART 表现最佳。
Oct, 2021
本文探讨了在大规模数据集上对 transformer 模型进行语言模型的预训练,并在 QA 和 CQA 数据集上微调 BERT 模型进行答案选择任务,在 QA 数据集中观察到了最大 13.1% 的提升,在 CQA 数据集中观察到了最大 18.7% 的提升。
Nov, 2020
本文提出了一种基于闭环迭代一致优化的框架,将不同的预训练模型组合在一起,以零样本方式解决各种多模态问题,该框架通过生成器和评分器的迭代反馈,使模型之间通过沟通逐渐纠正错误,形成一致性,从而显著提高下游任务的性能。
Oct, 2022
本文在多语言跨领域设置中,提出了基于 Transformers 预训练语言模型的术语抽取的预测能力的比较研究。实验结果表明,除了荷兰语和法语之外,在所有语言中应用单语言模型的策略优于利用多语言模型的最先进方法。此外,将两个最佳模型的输出组合起来,可以取得显著的改进。
Dec, 2022
本文探讨了从预训练模型中创建集成模型的不同方法,并提出了一种有效的算法来识别下游数据集的预训练模型子集。在 19 项下游任务中(视觉任务适应基准),即使从超过 2000 个预训练模型中进行选择,其实现了具有较低推理预算的最先进性能,并且在 ImageNet 变体上对分布转移具有更好的鲁棒性。
Oct, 2020
本研究通过对知识图谱建立的基于神经网络(包括 BERT 和 BiLSTM)的简单问题回答模型进行评估,探究在数据稀疏的情况下 BERT 模型的表现。
Jan, 2020
大语言模型生成文本内容的多样性接近于人类的能力,因此为了避免潜在的风险如社交媒体上的假新闻,需要有效的假文本检测。本研究通过在内部和外部分布数据集上测试五种专门的基于 Transformer 的模型来研究它们在 LLM 生成文本检测任务中的性能和泛化能力。结果表明,单个基于 Transformer 的分类器在内部数据集上取得了不错的性能,但在外部数据集上的泛化能力有限。为了改进这一点,我们使用自适应集成算法结合了个体分类器模型,将在内部测试集上的平均准确率从 91.8% 提高到 99.2%,在外部测试集上的准确率从 62.9% 提高到 72.5%。结果表明自适应集成算法在 LLM 生成文本检测中具有有效性、良好的泛化能力和巨大的潜力。
Mar, 2024
本文中,我们展示了数据处理、预训练任务、神经网络建模或微调的方法如何单独影响性能,以及当这些方法共同考虑预训练模型时,语言模型在特定的问答任务上表现出最佳结果;具体地,我们提出了一种扩展的预训练任务和一种新的邻居感知机制,能更多地关注邻近的标记,从而捕捉预训练语言建模的上下文丰富性。我们的最佳模型在 SQuAD 1.1 上实现了 95.7%的 F1 和 90.6%的 EM,也在 SQuAD 2.0 基准上超过了现有的预训练语言模型,如 RoBERTa,ALBERT,ELECTRA 和 XLNet。
Mar, 2022
基于大型 FLMs 的小型 FLMs 的潜力是基于同一基础的,通过集成技术可以影响 FLMs 的关注点,揭示不同 FLMs 的协作与合作的能力,我们发现深度集成的 BERT 通过使用心理健康等敏感领域的数据,相对于其大型版本 BERTlarge,具有倍数倍的性能优势。
Aug, 2023