使用流形混合增强跨语言传递

ICLRMay, 2022

Enhancing Cross-lingual Transfer by Manifold Mixup

Huiyun Yang, Huadong Chen, Hao Zhou, Lei Li

TL;DR通过跨语言流域混合的 X-Mixup 方法，根据大规模的预训练的多语言表示，以解决不同语言之间表示差异的问题并提高多个文本理解任务的表现

Abstract

Based on large-scale pre-trained multilingual representations, recent cross-lingual transfer methods have achieved impressive transfer performances. However, the performance of target languages still lags far beh

pre-trained multilingual representations cross-lingual transfer x-mixup method representation discrepancy text understanding tasks

发现论文，激发创造

使用 Map-Mix 提升口语识别性能

本文提出了一种名为 Map-Mix 的数据增广方法，用于提高低资源方言分类准确性，该方法通过数据点的模型训练动态来改进隐式 Mixup 的采样，相比于随机 Mixup 基线，Map-Mix 方法的加权 F1 得分提高了 2％，结果呈现出明显的良好校准模型。

Feb, 2023

MSMix：一种基于插值的文本数据增强方法：流形交换 Mixup

提出了一种简单而有效的插值数据增强方法 MSMix，并在三个中文意图识别数据集上进行了实验，结果表明该方法在全样本和小样本配置下均取得了比其他方法更好的结果。

May, 2023

STEMM：基于语音文本流形混合的自学习语音翻译

本研究提出了一种名为 STEMM 的方法来解决语音 - 文本翻译时，因跨模态表示不匹配导致数据标注不足的问题。该方法通过混合不同模态的表示序列，利用自学习框架来规范预测输出，能够有效地减轻跨模态表示不匹配并在 8 个翻译方向上达到了显著提高。

Mar, 2022

多样机器翻译的混合解码

本文提出了一种新方法，MixDiversity，用于实现多样化机器翻译，通过利用混合训练引入的句子潜在空间中的线性关系，在解码时通过与训练语料库中不同的句子对进行线性插值，生成输入句子的不同翻译，并通过选择具有多样性的训练语料库句子对和相应调整每对的插值权重来进一步改善翻译的准确性和多样性。

Sep, 2021

多语言混合：示例插值改进多语言神经机器翻译

本文介绍了一种多语言交叉编码解码器 (mXEncDec) 方法，以在实例级别融合多种语言对，通过改进实例插值技术跨多种语言改善 WMT 数据集上的机器翻译效果，并证明其能够改善模型的推广性。

Mar, 2022

大规模跨语言无监督表示学习

通过在 100 种语言上使用超过 2TB 的 CommonCrawl 数据对基于 Transformer 的掩蔽语言模型进行大规模的预训练，该模型命名为 XLM-R，显著优于 mBERT，在跨语言基准测试中实现了 + 14.6％和 + 13％的平均准确性和 F1 分数，并改善了 10 个低资源语言的准确性，显示了前景。

Nov, 2019

跨语言文档分类中的领域差异缩小

本文研究跨语言理解中的半监督学习，通过结合最先进的跨语言方法和弱监督学习方法，同时解决语言和领域差异，实现了对跨语言文档分类中的新的领先水平。

Sep, 2019

通过互补的内类和间类 Mixup 提高图像分类准确性

提出一种综合的混合方法和综合解决方案，针对图像分类任务中的类内混合、类间可分离性和类内内聚性进行增强，实验结果表明，该方法相比于现有方法以及类似方法在分类准确性上具有显著提升。

Mar, 2024

MixUp 作为局部线性域外正则化

本文提出混合增强数据方法 MixUp 的一种新的视角 ——“out-of-manifold regularization”，并发现了其存在的 “manifold intrusion” 问题，提出了一种新的自适应正则化方法 AdaMixUp，并通过实验验证了 AdaMixUp 的优越性。

Sep, 2018

跨语言调整上下文词表示对零 - shot 迁移的影响

本研究使用已训练好的 mBERT 模型对英语模型进行零样本迁移，并尝试采用小型平行语料库进行跨语言调整以提高性能表现，结果表明跨语言调整对不同语言的自然语言处理任务表现效果显著，且可以提高语义相似词汇的嵌入向量距离。

Apr, 2022