通过无监督相似度度量集成的高级源代码克隆检测
本文介绍了一个系统,它包括四个独立子系统,能够将科学文献的摘要分类到给定的七个类别中,通过对这四个子系统的集成,可以得到一个在测试和验证集上 F1 分数为 0.93 的最终系统,优于现有的最先进模型 SciBERT 的 F1 分数。
Feb, 2021
使用拓扑数据分析 (TDA) 基于距离测量,提出了估计自然语言处理 (NLP) 模型权重的方法,通过对模型的性能和相似性进行综合评估,改进了集成学习方法,提高了文本分类准确性和相关的不确定性估计。
Feb, 2024
本研究提出使用可计算的传递性度量来预测目标数据集上表现最佳的模型组,从包括 17 个来源数据集、两种不同架构和两种预训练方案在内的大规模源模型池中自动选择模型,在语义分割任务中通过与两个基准模型的比较,实现平均交并比相对提高 6.0% 和 2.5%。
Nov, 2021
通过应用集成方法来检测大语言模型(LLM)产生的机器生成文本的问题,并找到简单的 DetectGPT 子模型输出的摘要统计数据在保持其零 - shot 性的同时获得 0.73 的 AUROC(相对于 0.61),受监督学习方法可以将准确性提升到 0.94 的 AUROC,但需要一个训练数据集,这表明进一步推广的可能性以创建高准确度、不依赖模型的机器生成文本检测器。
Jun, 2024
我们的研究通过将 Sci-BERT、DeBERTa 和 XLNet 等变形器模型与卷积神经网络 (CNNs) 进行集成,构建了一些分类模型,实验证明考虑的集成架构在分类方面的性能超过了单个变形器模型。此外,所提出的 SciBERT-CNN 集成模型在 ALTA 共享任务 2023 数据上产生了 98.36% 的 F1-score。
Oct, 2023
本文探讨了从预训练模型中创建集成模型的不同方法,并提出了一种有效的算法来识别下游数据集的预训练模型子集。在 19 项下游任务中(视觉任务适应基准),即使从超过 2000 个预训练模型中进行选择,其实现了具有较低推理预算的最先进性能,并且在 ImageNet 变体上对分布转移具有更好的鲁棒性。
Oct, 2020
本文提出了一种基于闭环迭代一致优化的框架,将不同的预训练模型组合在一起,以零样本方式解决各种多模态问题,该框架通过生成器和评分器的迭代反馈,使模型之间通过沟通逐渐纠正错误,形成一致性,从而显著提高下游任务的性能。
Oct, 2022
该论文讨论了在第三届学术文档处理研讨会上开展的 DAGPap22 共享任务中开发的神经模型,侧重于比较不同的基于 transformer 的模型并使用附加数据集和技术来处理不平衡的类别,在提交最终版本时,我们使用经过随机过采样技术微调的 SciBERT,RoBERTa 和 DeBERTa 集成模型达到了 99.24% 的 F1 得分,官方评估结果将我们的系统排在第三位。
Sep, 2022
近期大型语言模型(LLMs)在各种风格和体裁的文本生成方面展示了惊人的能力。然而,这种能力容易被滥用,如虚假新闻生成、垃圾电子邮件创建以及在学术作业中的误用。因此,建立能够区分人工生成文本和人类作者文本的自动化方法至关重要。本文提出了一种简单而高效的解决方案,通过集成多个组成 LLM 的预测来解决这个问题。相较于以往基于困惑度或使用众多 LLM 的集成方法,我们的简化集成方法仅使用两个组成 LLM 即可达到可比较的性能。在四个生成文本分类基准数据集上进行的实验证明,与以往的最先进方法相比,性能提升范围在 0.5%到 100%之间。我们还研究了来自各个 LLM 的训练数据对模型性能的影响。结果表明,将商业限制的生成预训练变压器(GPT)数据替换为其他开放语言模型生成的数据,如 Falcon、Large Language Model Meta AI(LLaMA2)和 Mosaic Pretrained Transformers(MPT),是开发生成文本检测器的可行替代方法。此外,为了展示零 - shot 推广能力,我们在一个英语散文数据集上进行了实验,结果表明我们的集成方法可以有效处理新数据。
Nov, 2023
提出了一种用于评估模型集合对下游任务的可转移性的新方法 OSBORN,能够综合考虑图像领域差异、任务差异和模型集合的内聚性,相较于现有指标 MS-LEEP 和 E-LEEP,该方法在图像分类和语义分割任务中表现出更好的性能。
Sep, 2023