本文提出一种基于自训练方法的插入式零样本文本分类技术,无需领域专业知识或经验,仅需要类别标签和无标记数据,可显著提高性能,适用于各种文本分类任务。
Oct, 2022
本文旨在探究利用两种新的有效的预训练策略(Implicit 和 Explicit pre-training)来改善 PLMs 在不同方面与领域的数据上泛化能力,特别是在零样本情况下进行文本分类的任务。作者通过引入 UTCD 数据集进行评估,证明了该方法在一系列零样本范式的挑战数据集上实现了更好的泛化能力。
May, 2023
通过使用 Bi-Encoder Transformer 架构,我们提出了 Text2Topic,它在文本主题的高精度多标签分类方面取得了较高的性能,同时支持零样本预测,并通过实时处理平台部署的最终模型在 92.9% 的微观平均准确率和 75.8% 的宏观平均准确率上优于其他模型。
Oct, 2023
本文研究了使用自然语言实现零样本模型对新任务的自适应性,通过社交评论平台的文本和元数据作为简单的预训练任务,并提供分类任务的自然语言描述作为输入训练语言模型,以生成正确答案的方式进行自然语言的模型推广,克服了多任务分类的缺点,在六个基准文本分类数据集上训练出具有零样本性能的生成性语言模型,结果显示语言可以作为任务自适应的简单而强大的描述符,这为文本问题的新元学习策略指明了方向。
Dec, 2019
提出了使用零样本学习的方法在大语料库上训练模型来学习语句和其标签之间的关系,以实现模型对未知语句和标签的预测,并报告在三个不同数据集上的实验结果,该方法是自然语言处理中通向智能化的一步。
Dec, 2017
本文提出了一个两阶段的框架,结合了数据扩充和特征扩充来解决零样本文本分类问题,同时将四种语义知识结构(词嵌入,类别描述,类层次结构和通用知识图谱)纳入到该框架中,实验结果表明,该框架的单独和联合两个阶段相比基线和最近的方法均获得了最佳的整体准确率。
Mar, 2019
本文重点研究了零样本多标签文档分类在人力资源领域的实际税分类扩展情景下的应用,实验表明,相对于传统的多标签分类器,零样本分类器可以实现 12% 的平均精度(macro-AP)的增长。另外,本文还提出了采用推荐系统领域中的筛选 / 重排序分解技术可以显著降低性能非常高的零样本分类器的计算负荷。
Aug, 2022
本研究提出了一种简单的方法来进一步提高零 - shot 分类准确性,即利用精心策划的微调数据集描述任务的标签,进而在多个文本域中获得强大的预测模型。
本文提出了一种基于大规模文本到图像扩散模型的零样本开放词库分割方法,通过考虑采样的图像的背景来更好地定位对象并直接分割背景,并证明该方法可以在多个基准测试中表现出色,在 Pascal VOC 基准测试上领先了超过 10%。
Jun, 2023
基于最新的自然语言处理技术,本研究通过使用基于写作指南的文本对文本界面而无需提供培训样本的方法,评估其在实际应用中自动化注释任务中的效果,结果表明即使受到本地计算资源限制,这种以提示为基础的方法与经过优化的 BERT 模型相当,且无需任何已标记的训练数据。
Jun, 2024