本文研究跨语言理解中的半监督学习,通过结合最先进的跨语言方法和弱监督学习方法,同时解决语言和领域差异,实现了对跨语言文档分类中的新的领先水平。
Sep, 2019
本研究提出了一种半监督敌对训练过程,通过最小化标签保留输入扰动的最大损失来改进跨语言文本分类,进而为目标语言样本诱导标签以进一步适应模型。与多个强基线比较,我们观察到了在各种语言的文档和意图分类上的显著增益。
Jul, 2020
该研究提出了一种基于经典的 “翻译和测试” 流程的跨语言文本分类方法,该方法将神经机器翻译器与高资源语言中的文本分类器相结合,通过端到端反向传播来进行微调,并在三个跨语言文本分类数据集上展示了显著的改进。
Jun, 2023
本篇研究提出了一种新的 Reuters 子语料库,其针对 8 种语言具有平衡的类先验分布,旨在通过使用多语言词向量和句子嵌入来提供跨语言文档分类的基线,并促进该重要领域的研究。
May, 2018
本文提出了一种跨语言教师 - 学生方法 (CLTS),通过最小化跨语言资源 (即少量单词翻译),将跨语言监督信息扩展到目标语言中,采用有限的翻译预算提取并转移最重要的任务特定的种子词,然后使用种子词初始化老师分类器,进而循环训练一个更强大的学生分类器,利用目标文本中种子词的上下文,从而解决低资源语言中新兴的任务。
Oct, 2020
本文提出了一种新的多语言情感分类方法,使用了大量的弱监督数据训练多层卷积网络,通过在多种语言数据集上进行充分的评估,证明该方法的优异性能,达到了同类研究的最高水平。
Mar, 2017
本研究提出了一个基于模型蒸馏的跨语言文本分类新方法,使用软概率预测作为并行语料库中标签丰富语言中的监督标签,成功地对目标语言训练分类器,并应用对抗式特征适应技术以减少分布不匹配现象,实验证明该方法具有优越的性能。
May, 2017
本文提出了一种基于语料库翻译的新方法,通过从源标准 SRL 注释中构建高质量的目标语言训练数据集,以解决低资源语言缺乏注释数据集的挑战,并且得到了良好的效果。
Apr, 2020
该论文提出了一种元学习方法,可以在有限资源的情况下进行文档分类,并在少量标记数据的情况下取得了较好的效果,涉及跨语言、多语言的情况。作者还对多个元学习方法进行了比较和调整,提出了一种简单且有效的调整方式,并在多语言上取得了新的最佳表现。
Jan, 2021
本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式, 另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。
Jan, 2019