Gestalt: SQuAD2.0 的叠加集合

Apr, 2020

Gestalt: a Stacking Ensemble for SQuAD2.0

Mohamed El-Geish

TL;DR本文提出了一种基于深度学习的系统，在 SQuAD2.0 任务中，通过对话段落来寻找或指示问题的正确答案，它可以学习一个异构 SQuAD2.0 模型的集合，在进行合适的融合后，能够胜过单个最佳模型。我们创造了一种堆叠集合，将两个基于 ALBERT 和 RoBERTa 的模型的前 N 个预测组合成一个多类分类任务，以从它们的预测中选择最佳答案。我们研究了各种集合配置、输入表示和模型架构。在评估中，我们检查了测试集 EM 和 F1 得分；我们最好的表现集合结合了基于 CNN 的元模型，在 EM 和 F1 得分方面分别得分为 87.117 和 90.306，相对于基线表现最佳的模型（一个基于 ALBERT 的模型）的 86.644 和 89.760，分别提高了 0.55% 和 0.61%。

Abstract

We propose a deep-learning system -- for the squad2.0 task -- that finds, or indicates the lack of, a correct answer to a question in a context paragraph. Our goal is to learn an →

deep-learning squad2.0 ensemble albert roberta

发现论文，激发创造

自然语言问题回答问题的集成方法

该研究利用神经注意力机制提高机器阅读理解和问答的准确性，分析和比较多种神经网络模型，将其组成集成模型并在 SQUAD 数据集上测试，结果表明集成模型优于最佳模型 Mnemonic Reader。

Aug, 2019

基于 Transformer 的集成模型对 AI 生成的文本进行检测

本论文介绍了我们团队 “SynthDetectives” 在 ALTA 2023 共享任务中的提交情况。我们采用了一种堆叠 Transformer 模型的方法来实现 AI 生成文本的检测任务。我们的方法在模型选择上是新颖的，因为我们使用了易于访问和轻量级的模型进行集成。我们展示了模型集成相比单独使用模型能够提高准确性的结果。在共享任务组织者提供的官方测试数据上，我们的方法达到了 0.9555 的准确得分。

Oct, 2023

对大型序列标注器进行集成和知识蒸馏，用于语法纠错

本文旨在改进 GEC 序列标记体系结构，特别是在大型配置中采用最新的基于 Transformer 的编码器进行集成。通过跨度级别编辑的多数投票方法来鼓励集成模型，我们的最佳集合在 BEA-2019（测试）上获得了 76.05 的 $F_{0.5}$ 分数，即使没有在合成数据集上进行预训练也是如此。此外，我们采用知识蒸馏技术，通过训练集合来生成新的合成数据集，并在公开的合成 PIE 数据集上完成预训练，最终获得 73.21 的 $F_{0.5}$ 分数，其代码、数据集和训练好的模型都可供公开获取。

Mar, 2022

一种深度集成模型，带有槽对齐的序列到序列的自然语言生成

通过使用基于神经网络的语言生成器，采用多种数据表示和提升方法，我们在餐饮、电视、电脑三个领域展开了实验，证明我们的方法比同类模型在不同评估方法下表现更优秀。

May, 2018

使用深度卷积神经网络优化的集成学习医学图像分类分析

该研究提出了一种可复现的医学图像分类管道，分析了集成学习技术在深度学习医学图像分类管道中的优化效果，发现 Stacking 技术效果最好，能增加 13％的 F1 得分，此外，Augmenting 和 Bagging 技术也能显著提高性能。此外也展示了简单的统计汇总函数与较复杂的机器学习技术汇总函数相比并不逊色。综述结果表明，集成学习技术的使用能够为医学图像分类管道提高性能和抗干扰能力。

Jan, 2022

知识库三元组评分的神经分类器集成

本文介绍了我们在 WSDM Cup 2017 的三元组评分任务中所采用的方法，该方法采用了多个神经网络分类器的输出，并使用监督式机器学习模型进行了组合。实验结果表明，我们提出的方法在三项指标中的一项（即 Kendall's tau）取得了最佳性能，并在其他两个指标（即准确度和平均分差）上表现出了竞争力。

Mar, 2017

RubCSG 在 SemEval-2022 任务 5 中：集成学习用于识别具有攻击性的米姆图像

本文提出了一种基于多种单模态和双模态模型结构的集合系统，旨在通过 SemEval 2022 Task 5 数据集对多媒体中的自动仇恨检测进行建模，并实现了一个新的模型融合网络和集成学习方法来获得更好的性能。该系统在 sub-task A 中实现了 0.755 的宏平均 F1 分数（第 11 名），在 sub-task B 中实现了 0.709 的加权平均 F1 分数（第 10 名）。

Apr, 2022

使用预训练语言模型集成的简答评分

本研究探讨了利用 Kaggle 自动化短问题评分数据集，通过微调一系列的小型、基础型、大型预训练 Transformer 语言模型，并训练一个特征模型来测试这些模型的集成的有效性。观察到较大的模型通常表现稍好，但它们仍无法自己达到最优结果，只有通过大量网络集成才能产生最优结果，但这些集成过于庞大，无法应用于实际生产环境。

Feb, 2022

MEDIQA 2019：利用语言推理和问题蕴含的多任务学习进行答案过滤和重新排序的五边形模型

本文介绍了一种在多任务设置中训练的端对端系统，使用任务特定的预训练模型作为深度特征提取器，以过滤和重新排列医学领域答案的方法来解决排名和大型文档分类等任务中输入大小限制和数据不足的问题，并在 ACL-BioNLP 研讨会 MediQA 问答共享任务上取得了 Spearman's Rho 为 0.338 和 Mean Reciprocal Rank 为 0.9622 的最高分数。

Jul, 2019

用于训练多样深度集成的随机多选学习

该论文提出一种基于深度网络集成模型的新型随机梯度下降方法，通过使用多种高可能性的假设，实现产生多个预测结果的任务，其能够显著增强预测能力和降低错误率，并产生可解释的任务模糊度表示。

Jun, 2016