利用结构对应学习进行跨语言适应
本文提出一种基于神经网络模型的领域自适应方法,用于一个跨领域的产品情感分类任务中,该方法将表示学习和自编码器神经网络这两个领域自适应技术结合起来,能够更好地处理缺乏标记数据的领域数据,并在 12 个领域问题对上比已有的方法提高了 3.77% 至 2.17% 不等的准确率。
Oct, 2016
本文提出了一种基于分布式词表示的跨语言结构对应学习方法,能够在没有平行语料库的情况下学习具有意义的一对多映射,用于处理跨语言情感分类问题,在 NLP&CC 2013 跨语言情感分析数据集上进行试验,证明该方法比最先进的方法更具竞争力。
Nov, 2016
本文提出了一种用于自动提取领域特定特征和领域不变特征的无监督特征分解方法,并利用互信息估计将交叉语言表示计算所述的跨领域和跨语言(CLCD)设置分解为领域不变和领域特定部分,实验结果表明,我们提出的方法在 CLCD 设置中取得了显著的性能提升。
Nov, 2020
本文针对神经机器翻译中的无监督领域自适应问题,提出一种跨语料库数据选择方法,通过对多语言 BERT 进行对比学习,实现源语言和目标语言之间的表示对齐,从而实现零样本领域分类器的可转移性,并且通过联合学习翻译任务和领域区分任务来适应新领域。我们在五个不同的领域和三种语言对的神经机器翻译上进行了跨语料库数据选择方法的评估,并在 COVID-19 疫情实时翻译中进行了应用验证, 实验结果表明,我们提出的方法相对于基线方法的 BLEU 指标得分提高了 1.5 个百分点。
Sep, 2021
本文提出了一种自我监督学习方法,即可转移对比学习(TCL),其将 SSL 和所需的跨域可转移性紧密地联系起来,并通过特定的内存库和伪标签战略对源和目标之间的跨域内部类域差异进行惩罚
Dec, 2021
近年来,跨语言对齐是多语言语言模型研究的一个活跃领域。本文概述了改进跨语言对齐的技术方法,并总结了该领域的见解。我们提供了对大量论文的定性总结结果。最后,我们讨论了这些见解不仅适用于已经深入研究这一主题的编码器模型,还适用于编码器 - 解码器甚至只有解码器的模型,并指出平衡语言中立和语言特定信息的有效权衡是关键。
Apr, 2024
本研究提出了一个基于模型蒸馏的跨语言文本分类新方法,使用软概率预测作为并行语料库中标签丰富语言中的监督标签,成功地对目标语言训练分类器,并应用对抗式特征适应技术以减少分布不匹配现象,实验证明该方法具有优越的性能。
May, 2017
本研究提出了一种半监督敌对训练过程,通过最小化标签保留输入扰动的最大损失来改进跨语言文本分类,进而为目标语言样本诱导标签以进一步适应模型。与多个强基线比较,我们观察到了在各种语言的文档和意图分类上的显著增益。
Jul, 2020
利用语言的语法方面作为测试基础,我们的分析揭示了对于仅编码器和仅解码器的大型语言模型,语言的结构概念空间之间具有高度的对齐度。然后,我们提出了一种基于元学习的方法来学习不同语言之间的概念空间对齐,从而实现零样本学习和少样本学习,并增进了对跨语境情景的学习现象的理解。在语法分析任务上的实验表明,我们的方法与最先进的方法相比取得了竞争性的结果,并缩小了语言之间的性能差距,特别有助于那些资源有限的语言。
Oct, 2023