消除多语言表示中的自我语言偏差的简单有效方法

Sep, 2021

消除多语言表示中的自我语言偏差的简单有效方法

A Simple and Effective Method To Eliminate the Self Language Bias in Multilingual Representations

Ziyi Yang, Yinfei Yang, Daniel Cer, Eric Darve

TL;DR采用几何代数和语义空间的新角度，提出 “语言信息移除” 方法，通过从多语种表示中分离语言身份信息，进一步研究语言无关和语义 - 语言信息分离的问题。该方法简单而高效，只使用简单的线性运算，并在多语种嵌入空间的弱对齐模型上实现了近乎 100％的显着性能提高。在 Amazon Reviews 和 XEVAL 数据集上进一步验证，显示该方法能够提高跨语言转移性能。

Abstract

Language agnostic and semantic-language information isolation is an emerging research direction for multilingual representations models. We explore this problem from a novel angle of geometric algebra and

multilingual representations geometric algebra semantic space language information removal cross-lingual transfer performance

发现论文，激发创造

发现用于语言无关的多语言表示的低秩子空间

在这项工作中，我们提出了一种新的方法，通过从多语言嵌入空间中投影掉语言特定因素，以完全利用语义信息，并消除语言身份信号，从而在语义任务中取得更好的结果。

Jan, 2024

诱导语言无关的多语言表示

本研究提出三种方法以提高跨语言表示的效果，包括将目标语言的向量空间重新对齐到源语言，去除语言特异性的均值和方差，以及通过去除形态和句子重新排序来增加跨语言相似性。研究发现，这些方法联合使用可以降低跨语言转移障碍。

Aug, 2020

单语数据的无监督跨语言信息检索

提出一个针对跨语言信息检索的全面无监督框架，通过基于单语语料库构建共享的跨语言词嵌入空间，利用来自对抗神经网络的迭代过程实现无需双语数据的检索，实验验证了该方法的有效性，并通过无监督集成 CLIR 模型提升性能。

May, 2018

面向大规模多语言神经机器翻译的信息性语言表示学习

本研究提出了两种方法，即语言嵌入体现和语言感知多头注意力，以学习信息量丰富的语言表示，从而缓解在多语言神经机器翻译模型中引导翻译的语言令牌的失效问题，并且在两个大规模多语言神经机器翻译数据集上取得了显著的性能提升。同时，进一步的语言类型学预测实验证明，我们的方法学习到的基于矩阵的语言表示可以捕捉丰富的语言类型学特征。

Sep, 2022

语言表征投射：我们能在多语言语言模型中跨语言转移事实知识吗？

通过两个无参数的语言表示投影模块（LRP2），本文调查了从英语到非英语语言的显式传输相对丰富的事实知识的可行性，并在 mLAMA 数据集上的实验结果证明了 LRP2 显著提高了事实知识检索精度，促进了对多种非英语语言的知识传递能力。

Nov, 2023

基于对比学习的语言无关多语种信息检索

通过利用平行语料库和非平行语料库，采用对比学习等方法，有效提高了预训练多语言语言模型的跨语言传递能力，同时显著提高了检索性能，且计算成本较低。

Oct, 2022

跨语言信息检索的简洁有效神经排序和重排序基线

该研究旨在提供一种用于跨语言检索模型的组织框架，并在 TREC 2022 NeuCLIR 中的三种语言测试集上实现基于此的可重复现的基准线。

Apr, 2023

多语言信息检索的神经网络方法

本研究探讨了采用神经网络翻译和预训练多语言神经语言模型是否能提升多语言信息检索 (MLIR) 技术。结果表明，使用预训练的 XLM-R 多语言语言模型以其母语进行索引，可以在索引时间大大缩短的情况下取得与神经翻译相结合的最佳效果。

Sep, 2022

共享嵌入空间中跨语言性的大规模多语言分析

本文研究了跨语言模型中影响句子级别对齐的语言和非语言因素，并使用 BERT 和 BiLSTM 模型和《圣经》作为语料库进行了比较分析，结果表明，词序一致性和形态复杂度一致性是跨语言性的两个最强的语言预测因素。

Sep, 2021

多语言语言模型表示的几何学

本文使用 XLM-R 为案例研究，研究了多语言语言模型如何在维持共享多语言表示空间同时在每种语言中编码语言敏感信息，并证明了多语言语言模型沿着语言敏感和语言中性轴编码信息，使其能够提取下游任务和跨语言传递学习的各种特征。

May, 2022