忘掉 NLI,使用字典:零样本主题分类用于资源有限的语言,应用于卢森堡语
本文提出了一种名为 ZeroBERTo 的新模型,利用无监督聚类方法在分类任务前获取压缩数据表示,其在长文本输入的性能和执行时间上都优于 XLM-R, F1 分数比 FolhaUOL 数据集上的 XLM-R 高约 12%。
Jan, 2022
通过使用多语种词典进行预训练,本文在低资源语言中增强了多语种语言模型的功能,在 34 种语言中进行了零样本情感分析任务,包括 6 种高 / 中资源语言,25 种低资源语言和 3 个代码混合数据集。结果显示,使用多语种词典进行预训练能够实现更好的零样本性能,而不使用句级情感数据,相比于基于英文情感数据集和大语言模型如 GPT-3.5,BLOOMZ 和 XGLM 的微调模型。这些发现适用于涉及高资源语言的未知低资源语言到代码混合场景。
Feb, 2024
我们提出了一种简单但有效的方法来将任务上下文化为特定的大语言模型,通过观察给定的大语言模型如何描述目标数据集,聚合大语言模型的开放式推理结果,并最终将聚合的元信息纳入实际任务中,我们展示了这种方法在文本聚类任务中的有效性,并通过上述过程的示例突出了上下文化的重要性。
Jun, 2024
本文重点研究了零样本多标签文档分类在人力资源领域的实际税分类扩展情景下的应用,实验表明,相对于传统的多标签分类器,零样本分类器可以实现 12% 的平均精度(macro-AP)的增长。另外,本文还提出了采用推荐系统领域中的筛选 / 重排序分解技术可以显著降低性能非常高的零样本分类器的计算负荷。
Aug, 2022
本文研究了使用自然语言实现零样本模型对新任务的自适应性,通过社交评论平台的文本和元数据作为简单的预训练任务,并提供分类任务的自然语言描述作为输入训练语言模型,以生成正确答案的方式进行自然语言的模型推广,克服了多任务分类的缺点,在六个基准文本分类数据集上训练出具有零样本性能的生成性语言模型,结果显示语言可以作为任务自适应的简单而强大的描述符,这为文本问题的新元学习策略指明了方向。
Dec, 2019
本研究提出了使用零样本学习方法进行需求分类的可能性,使用了上下文词嵌入和基于 transformer 的语言模型,通过一系列实验展示了该方法在三项分类任务上取得了不俗的结果。这种零样本学习方法可以缓解在需求工程中数据短缺的问题。
Feb, 2023
本文讨论使用 MultiEURLEX 数据集进行零样本跨语言转移的法律主题分类,介绍了新版本的数据集和使用基于翻译的方法相对于之前最佳的跨语言预训练模型调参的方法的改进,同时提出了一种基于双语教师 - 学生的零样本转移方法。
Jun, 2022
本文介绍了一种零射击跨语言主题模型,利用迁移学习来处理多个语言的数据集,以解决传统基于词袋的主题模型所面临的单语言或巨大而稀疏的词汇表等问题,并评估了在不同语言中同一篇文章的主题预测的准确性和连贯性,结果表明所转移的主题是连贯且稳定的,具有潜在的未来研究方向。
Apr, 2020
利用零样本学习采用递进性思维提示,与传统的问答格式相比,GPT 模型在文本分类问题上具备零样本分类器的能力,有效地利用提示策略在各种文本分类场景中展现出较好的性能。
Dec, 2023