利用结构对应学习进行跨语言适应

Aug, 2010

利用结构对应学习进行跨语言适应

Cross-Lingual Adaptation using Structural Correspondence Learning

Peter Prettenhofer, Benno Stein

TL;DR通过使用未标记的文档和单词翻译神器，利用结构对应学习方法进行跨语言适应，实现从一种语言到另一种语言的分类知识传递，相对于其它方法，该方法具有资源高效性和任务特异性，并在英语为源语言、德、法、日语为目标语言的跨语言主题和情感分类实验中展现出比机器翻译基线方法平均减少 30%（主题分类）和 59%（情感分类）的较小的相对误差。

Abstract

cross-lingual adaptation, a special case of domain adaptation, refers to the transfer of classification knowledge between two languages. In this article we describe an extension of →

cross-lingual adaptation domain adaptation structural correspondence learning classification knowledge transfer resource efficiency

发现论文，激发创造

神经结构对应学习用于域自适应

本文提出一种基于神经网络模型的领域自适应方法，用于一个跨领域的产品情感分类任务中，该方法将表示学习和自编码器神经网络这两个领域自适应技术结合起来，能够更好地处理缺乏标记数据的领域数据，并在 12 个领域问题对上比已有的方法提高了 3.77% 至 2.17% 不等的准确率。

Oct, 2016

跨语言情感分类的结构对应学习及一对多映射

本文提出了一种基于分布式词表示的跨语言结构对应学习方法，能够在没有平行语料库的情况下学习具有意义的一对多映射，用于处理跨语言情感分类问题，在 NLP&CC 2013 跨语言情感分析数据集上进行试验，证明该方法比最先进的方法更具竞争力。

Nov, 2016

预训练跨语言语言模型的无监督领域自适应

本文提出了一种用于自动提取领域特定特征和领域不变特征的无监督特征分解方法，并利用互信息估计将交叉语言表示计算所述的跨领域和跨语言（CLCD）设置分解为领域不变和领域特定部分，实验结果表明，我们提出的方法在 CLCD 设置中取得了显著的性能提升。

Nov, 2020

基于多语数据选择的神经机器翻译领域通用无监督适应

本文针对神经机器翻译中的无监督领域自适应问题，提出一种跨语料库数据选择方法，通过对多语言 BERT 进行对比学习，实现源语言和目标语言之间的表示对齐，从而实现零样本领域分类器的可转移性，并且通过联合学习翻译任务和领域区分任务来适应新领域。我们在五个不同的领域和三种语言对的神经机器翻译上进行了跨语料库数据选择方法的评估，并在 COVID-19 疫情实时翻译中进行了应用验证，实验结果表明，我们提出的方法相对于基线方法的 BLEU 指标得分提高了 1.5 个百分点。

Sep, 2021

跨语言文档分类中的领域差异缩小

本文研究跨语言理解中的半监督学习，通过结合最先进的跨语言方法和弱监督学习方法，同时解决语言和领域差异，实现了对跨语言文档分类中的新的领先水平。

Sep, 2019

视觉域适应的可转移对比学习

本文提出了一种自我监督学习方法，即可转移对比学习（TCL），其将 SSL 和所需的跨域可转移性紧密地联系起来，并通过特定的内存库和伪标签战略对源和目标之间的跨域内部类域差异进行惩罚

Dec, 2021

跨语言对齐的理解 -- 综述

近年来，跨语言对齐是多语言语言模型研究的一个活跃领域。本文概述了改进跨语言对齐的技术方法，并总结了该领域的见解。我们提供了对大量论文的定性总结结果。最后，我们讨论了这些见解不仅适用于已经深入研究这一主题的编码器模型，还适用于编码器 - 解码器甚至只有解码器的模型，并指出平衡语言中立和语言特定信息的有效权衡是关键。

Apr, 2024

文本分类的跨语言蒸馏

本研究提出了一个基于模型蒸馏的跨语言文本分类新方法，使用软概率预测作为并行语料库中标签丰富语言中的监督标签，成功地对目标语言训练分类器，并应用对抗式特征适应技术以减少分布不匹配现象，实验证明该方法具有优越的性能。

May, 2017

利用对抗训练在自学习中进行跨语言文本分类

本研究提出了一种半监督敌对训练过程，通过最小化标签保留输入扰动的最大损失来改进跨语言文本分类，进而为目标语言样本诱导标签以进一步适应模型。与多个强基线比较，我们观察到了在各种语言的文档和意图分类上的显著增益。

Jul, 2020

变压器语言模型中的结构概念是否普遍？迈向可解释的跨语言泛化

利用语言的语法方面作为测试基础，我们的分析揭示了对于仅编码器和仅解码器的大型语言模型，语言的结构概念空间之间具有高度的对齐度。然后，我们提出了一种基于元学习的方法来学习不同语言之间的概念空间对齐，从而实现零样本学习和少样本学习，并增进了对跨语境情景的学习现象的理解。在语法分析任务上的实验表明，我们的方法与最先进的方法相比取得了竞争性的结果，并缩小了语言之间的性能差距，特别有助于那些资源有限的语言。

Oct, 2023