UniBridge:面向低资源语言的统一交叉语言迁移学习方法
本文提出一种无监督的跨语言嵌入转换方法,其中使用 Embedding-Push、Attention-Pull 和 Robust targets 来处理语言嵌入之间的聚类差异,以提高跨语言转换的可靠性。 实验结果表明,该方法在零 - shot 跨语言文本分类任务上取得显着优于以往的工作,可以获得更好的多语言对齐。
Oct, 2022
本研究提出了一种新颖的基于跨语言词向量的神经网络模型,通过高覆盖的双语词典训练,利用跨语言模型转移的方法,针对低资源语言的注释预测问题提出了解决方案,并通过多种主动学习启发式方法,提升了该方法的性能。
May, 2017
使用高覆盖率的字典和 EM 式训练算法,该方法解决了以前的跨语言词嵌入方法中的资源需求大、难以融合单语言数据或难以处理多义词等问题,在双语词汇表归纳任务中实现了表现卓越的结果,并且在单语词汇相似度和跨语言文档分类任务上也取得了有竞争力的结果。
Jun, 2016
该研究提出了一种神经嵌入模型,利用双语词典将文字定义映射到双语目标词汇,探索不同的句子编码技术以及采用多任务学习和联合学习等关键学习策略来增强学习过程,实验结果表明,该模型在跨语言反向字典检索任务和双语释义识别问题上表现优异,并有效地解决了双语释义识别问题。
Aug, 2018
提出一种基于双语 CBOW 方法的联合学习方法,通过利用句子对齐语料库获得强健的跨语言词和句子表示,显著提高了跨语言句子检索性能,并在维持单词翻译方面与最先进的方法并驾齐驱,同时在零 - shot 跨语言文档分类任务方面达到深度 RNN 方法的水平,对单语词向量的提高优势明显。
Dec, 2019
Med-UniC 是一种用于统一跨语言医疗视觉语言预训练的框架,通过使用 CTR 方法对多模式医疗数据进行处理,解决了语言、文化及隐含知识等方面的问题,减轻了社区偏见并取得了优异的成果。
May, 2023
我们提出了一种名为 UniBriVL 的新型通用语言表征学习方法,该方法基于图像和语言的桥接,将音频、图像和文本嵌入到共享空间中,实现各种多模态应用。该方法解决了语言(文本和音频)表征学习中的主要挑战,并有效捕捉了音频和图像之间的相关性,同时通过定性评估展示了从音频生成的图像的潜力。UniBriVL 在下游任务中的实验结果表明了其有效性以及从音频中选择适当图像的能力,该方法具有语音识别、音乐信号处理和字幕系统等各种应用潜力。
Jul, 2023
本文介绍了一种针对数据有限的语言的新的通用机器翻译方法,利用迁移学习的方法,在多源语言之间共享词汇和句子级别的表示,从而帮助低资源的语言利用高资源语言的词汇和句子表示,在罗马尼亚语 - 英语 WMT2016 上,我们的方法在 6k 的平行语料库上能够获得 23 BLEU 分数,远高于使用多语言训练和反向翻译的强基线系统的 18 BLEU 分数,此外,我们还展示了该方法可以在零样本条件下对同一数据集进行微调,达到接近 20 BLEU 的分数。
Feb, 2018
本文通过大量的评估,分析了多种跨语言嵌入模型的优劣,特别是在目标语言,训练语料库和监督程度等不同方面的限制,从而对 “高质量跨语言嵌入模型可以在不需要太多监督的情况下学习到” 的观点提出了质疑。
Aug, 2019
通过引入 LangBridge,我们介绍了一种零 - shot 方法,用于在没有多语言监督的情况下适应语言模型的多语种推理任务。虽然仅利用英语数据进行训练,LangBridge 显着提高了语言模型在数学推理、编码和逻辑推理等低资源语种上的性能。我们分析表明,LangBridge 的有效性来自多语种表示的语言无关特性。我们公开发布了我们的代码和模型。
Jan, 2024