无需监督学习排名检测细粒度跨语义差异

EMNLPOct, 2020

无需监督学习排名检测细粒度跨语义差异

Detecting Fine-Grained Cross-Lingual Semantic Divergences without Supervision by Learning to Rank

Eleftheria Briakou, Marine Carpuat

TL;DR本文介绍了一个训练多语言 BERT 模型的策略，通过学习排列变异的不同粒度的合成样本来提高细粒度语义差异的预测和注释。本文还推出一个新的数据集，旨在评估我们的模型在英语 - 法语两种语言之间的语义分歧上的标注效果。结果表明，相对于强的句子级相似度模型，学习排列有助于更准确地检测细粒度句子级分歧，而令牌级别的预测具有进一步区分粗细颗粒差异的潜力。

Abstract

Detecting fine-grained differences in content conveyed in different languages matters for cross-lingual nlp and multilingual corpora analysis

fine-grained differences cross-lingual nlp multilingual corpora analysis bert models semantic divergences

发现论文，激发创造

在没有注释的情况下识别平行文本中的语义分歧

本研究利用深度神经网络模型自动检测双语并行句对中的语义差异，该模型能够在无需任何手动注释的情况下训练任何并行语料库，我们显示出我们的语义模型比基于单词对齐的表层特征的模型更准确地检测到差异，并且发现这些差异对神经机器翻译至关重要。

Mar, 2018

用于跨语言评估的基于逻辑的语料库

本文提出了一种新的语法任务集，专注于矛盾检测，并评估了递归模型和 BERT 网络。虽然 BERT 在大多数逻辑形式上具有更好的泛化效果，但在处理计数算子时仍有待改进，同时表明该语法任务可以在不同的语言中实现并实现跨语言传递学习。

May, 2019

超越噪音：缓解细粒度语义差异对神经机器翻译的影响

本文分析了语义差异对神经机器翻译的影响，并基于此提出了一种包含因素的敏感型神经机器翻译框架，该框架能够更好地应对自然发生的差异，从而提高翻译质量和模型校准能力。

May, 2021

面向相关文档中未监督识别语义差异的研究

研究了三种无监督的方法以实现识别语义差异的任务，并发现基于词对齐和句子级对比学习的方法与金标签的相关性较高，但所有无监督方法仍有很大的改进空间。

May, 2023

注入语义依存关系的微调

应用语言模型结构代替任务特定的监督并使用卷积图编码器通过显式引入语义解析提高 NLU 任务的性能。

Dec, 2020

数据增强和理性训练法实现跨语言句子选择

该论文提出了一种跨语言句子选择的方法，旨在使用数据增强和负采样技术来直接学习基于嵌入的跨语言查询相关模型，结果显示该方法的效果不亚于或优于多个最先进的机器翻译 + 单语检索系统，该方法在英语 - 索马里语、英语 - 斯瓦希里语和英语 - 塔加洛语三种语言对中获得了一致的改进。

Jun, 2021

超越对比学习：一种多语言检索的变分生成模型

本文提出了一种新的多语种文本嵌入生成模型 —— VMSST，通过在 $N$ 种语言的并行数据上运行，通过一个引入的近似算法，在多语种语境中鼓励源分离，我们在比较学习多语种文本嵌入的对比和基于生成的方法时，对其进行了仔细的大规模比较，并对其进行了语义相似性、位文本挖掘、跨语言问题检索等任务的评估，从而证明了其优越性。

Dec, 2022

用高质量翻译训练语料进行跨语言语义角色标注

本文提出了一种基于语料库翻译的新方法，通过从源标准 SRL 注释中构建高质量的目标语言训练数据集，以解决低资源语言缺乏注释数据集的挑战，并且得到了良好的效果。

Apr, 2020

使用一致性正则化的半监督神经机器翻译技术 —— 面向低资源语言

本文介绍一种半监督的方法来解决低资源语言机器翻译的问题，通过增强高质量的句子对和使用基于 SentenceBERT 的过滤器来提高数据质量，将交叉熵损失和 KL 散度相结合，特别是通过伪目标句子实现无监督训练，实验证明该方法可以显著提高 NMT 基线性能

Apr, 2023

低资源机器翻译中的语法差异处理

本文提出一种简单但有效的方法，即将目标语句重新排序以匹配源语序，并将其作为另外一种训练时的监督信号，从而在模拟低资源日语 - 英语和真实低资源维吾尔 - 英语语种中获得显着改进。

Aug, 2019