通用跨语言文本分类

Jun, 2024

Universal Cross-Lingual Text Classification

Riya Savant, Anushka Shelke, Sakshi Todmal, Sanskruti Kanphade, Ananya Joshi...

TL;DR通过优化现有标签 / 数据集，将不同语言的标签数据与训练相结合，以创建一个通用模型，从而增强标签和语言范围，实现跨语言的文本分类。

Abstract

text classification, an integral task in natural language processing, involves the automatic categorization of text into predefined classes. Creating supervised labeled datasets for low-resource languages poses a

text classification low-resource languages universal cross-lingual text classification supervised data multilingual sbert

发现论文，激发创造

跨语言文档分类中的领域差异缩小

本文研究跨语言理解中的半监督学习，通过结合最先进的跨语言方法和弱监督学习方法，同时解决语言和领域差异，实现了对跨语言文档分类中的新的领先水平。

Sep, 2019

利用对抗训练在自学习中进行跨语言文本分类

本研究提出了一种半监督敌对训练过程，通过最小化标签保留输入扰动的最大损失来改进跨语言文本分类，进而为目标语言样本诱导标签以进一步适应模型。与多个强基线比较，我们观察到了在各种语言的文档和意图分类上的显著增益。

Jul, 2020

T3L：跨语言文本分类的翻译测试迁移学习

该研究提出了一种基于经典的 “翻译和测试” 流程的跨语言文本分类方法，该方法将神经机器翻译器与高资源语言中的文本分类器相结合，通过端到端反向传播来进行微调，并在三个跨语言文本分类数据集上展示了显著的改进。

Jun, 2023

八种语言多语言文档分类语料库

本篇研究提出了一种新的 Reuters 子语料库，其针对 8 种语言具有平衡的类先验分布，旨在通过使用多语言词向量和句子嵌入来提供跨语言文档分类的基线，并促进该重要领域的研究。

May, 2018

通过稀疏教师转移在资源有限情况下进行跨语言文本分类

本文提出了一种跨语言教师 - 学生方法 (CLTS)，通过最小化跨语言资源 (即少量单词翻译)，将跨语言监督信息扩展到目标语言中，采用有限的翻译预算提取并转移最重要的任务特定的种子词，然后使用种子词初始化老师分类器，进而循环训练一个更强大的学生分类器，利用目标文本中种子词的上下文，从而解决低资源语言中新兴的任务。

Oct, 2020

利用大量弱监督数据进行多语言情感分类

本文提出了一种新的多语言情感分类方法，使用了大量的弱监督数据训练多层卷积网络，通过在多种语言数据集上进行充分的评估，证明该方法的优异性能，达到了同类研究的最高水平。

Mar, 2017

文本分类的跨语言蒸馏

本研究提出了一个基于模型蒸馏的跨语言文本分类新方法，使用软概率预测作为并行语料库中标签丰富语言中的监督标签，成功地对目标语言训练分类器，并应用对抗式特征适应技术以减少分布不匹配现象，实验证明该方法具有优越的性能。

May, 2017

用高质量翻译训练语料进行跨语言语义角色标注

本文提出了一种基于语料库翻译的新方法，通过从源标准 SRL 注释中构建高质量的目标语言训练数据集，以解决低资源语言缺乏注释数据集的挑战，并且得到了良好的效果。

Apr, 2020

多语言和跨语言文档分类：元学习方法

该论文提出了一种元学习方法，可以在有限资源的情况下进行文档分类，并在少量标记数据的情况下取得了较好的效果，涉及跨语言、多语言的情况。作者还对多个元学习方法进行了比较和调整，提出了一种简单且有效的调整方式，并在多语言上取得了新的最佳表现。

Jan, 2021

跨语言语言模型预训练

本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式，另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。

Jan, 2019