文本分类的跨语言蒸馏

ACLMay, 2017

Cross-lingual Distillation for Text Classification

Ruochen Xu, Yiming Yang

TL;DR本研究提出了一个基于模型蒸馏的跨语言文本分类新方法，使用软概率预测作为并行语料库中标签丰富语言中的监督标签，成功地对目标语言训练分类器，并应用对抗式特征适应技术以减少分布不匹配现象，实验证明该方法具有优越的性能。

Abstract

cross-lingual text classification(CLTC) is the task of classifying documents written in different languages into the same taxonomy of categories. This paper presents a novel approach to CLTC that builds on model distill

cross-lingual text classification model distillation adversarial feature adaptation parallel corpus soft probabilistic predictions

发现论文，激发创造

通过稀疏教师转移在资源有限情况下进行跨语言文本分类

本文提出了一种跨语言教师 - 学生方法 (CLTS)，通过最小化跨语言资源 (即少量单词翻译)，将跨语言监督信息扩展到目标语言中，采用有限的翻译预算提取并转移最重要的任务特定的种子词，然后使用种子词初始化老师分类器，进而循环训练一个更强大的学生分类器，利用目标文本中种子词的上下文，从而解决低资源语言中新兴的任务。

Oct, 2020

T3L：跨语言文本分类的翻译测试迁移学习

该研究提出了一种基于经典的 “翻译和测试” 流程的跨语言文本分类方法，该方法将神经机器翻译器与高资源语言中的文本分类器相结合，通过端到端反向传播来进行微调，并在三个跨语言文本分类数据集上展示了显著的改进。

Jun, 2023

多源跨语言模型迁移：学习共享的内容

利用生成对抗网络和无监督多语言嵌入，结合多源语言训练数据的多语言转移学习方法，在多语言文本分类和序列标记任务中实现 target 语言的显著性能提升。

Oct, 2018

通用跨语言文本分类

通过优化现有标签 / 数据集，将不同语言的标签数据与训练相结合，以创建一个通用模型，从而增强标签和语言范围，实现跨语言的文本分类。

Jun, 2024

探索多语言文本数据蒸馏

通过使用基于语言模型的学习方法，我们在多语言文本分类数据集上提出了几种数据蒸馏技术，来增强文本数据蒸馏领域中的跨体系结构泛化能力，并分析了它们在分类强度和跨体系结构泛化方面的性能，也研究了这些方法生成的数据摘要的语言特定公平性。

Aug, 2023

利用对抗训练在自学习中进行跨语言文本分类

本研究提出了一种半监督敌对训练过程，通过最小化标签保留输入扰动的最大损失来改进跨语言文本分类，进而为目标语言样本诱导标签以进一步适应模型。与多个强基线比较，我们观察到了在各种语言的文档和意图分类上的显著增益。

Jul, 2020

Translate-Distill：通过翻译和蒸馏学习跨语言稠密检索

该研究提出了一种名为 Translate-Distill 的方法，它利用交叉编码器或 CLIR 交叉编码器的知识蒸馏来训练双编码器 CLIR 学生模型。

Jan, 2024

预训练跨语言语言模型的无监督领域自适应

本文提出了一种用于自动提取领域特定特征和领域不变特征的无监督特征分解方法，并利用互信息估计将交叉语言表示计算所述的跨领域和跨语言（CLCD）设置分解为领域不变和领域特定部分，实验结果表明，我们提出的方法在 CLCD 设置中取得了显著的性能提升。

Nov, 2020

八种语言多语言文档分类语料库

本篇研究提出了一种新的 Reuters 子语料库，其针对 8 种语言具有平衡的类先验分布，旨在通过使用多语言词向量和句子嵌入来提供跨语言文档分类的基线，并促进该重要领域的研究。

May, 2018

多标签文本分类中用平衡更新和集体损失替代数据注释

通过使用预训练语言模型，在低监督情况下有效提高多标签文本分类性能的方法。

Sep, 2023