HLTCOE 参加 TREC 2023 NeuCLIR 赛道
使用 Translate-Distill 框架进行跨语言信息检索 (CLIR) 已经显示出其通过翻译和塑造训练跨语言神经双重编码器模型的好处。然而,Translate-Distill 仅支持单一语言。本研究扩展 Translate-Distill 并提出了用于多语言信息检索 (MLIR) 的多语言 Translate-Distill (MTD) 方法。我们通过 nDCG@20 指标和 MAP 指标在性能上展示了使用 MTD 培训的 ColBERT-X 模型优于以前的最先进训练方法 Multilingual Translate-Train,其在 nDCG@20 上提高了 5% 到 25%,在 MAP 上提高了 15% 到 45%。我们还展示了该模型对于训练批次中语言混合方式的鲁棒性。我们的实现可在 GitHub 上找到。
May, 2024
该研究提出了一种名为 Translate-Distill 的方法,它利用交叉编码器或 CLIR 交叉编码器的知识蒸馏来训练双编码器 CLIR 学生模型。
Jan, 2024
该论文描述了 HLTCOE 团队在 FIRE 2023 的非洲语言 CLIR 任务中的提交运行,我们使用机器翻译模型将文档和训练段落进行翻译,并使用 ColBERT-X 作为检索模型。此外,我们还提出了一组使用类似训练设置的备选训练程序的非官方运行。
Apr, 2024
本文提出了一种基于强化学习目标的训练方法,明确优化词汇凝聚力和连贯性两个学术界公认的话语质量指标,实现了在不牺牲翻译忠实度的前提下,比其他竞争性方法更有效地提高了多语种、多领域文档翻译的凝聚和连贯性。在中英语言对中,词汇凝聚力和连贯性分别提高了 2.46 和 1.17 个百分点,BLEU 分数和 F_BERT 分数分别提高了 0.63 和 0.47 个百分点。
Oct, 2020
本文提出了一种多级对比学习(ML-CTL)框架,使用翻译后的平行数据并显式地整合每对平行句子的单词级信息进行对比学习,以进一步提高预训练模型的跨语言能力。其中,采用了交叉零噪声对比估计(CZ-NCE)损失来减轻训练过程中小批量大小的浮点误差的影响。该方法显著提高了基础模型(mBERT)的跨语言迁移能力,并在 Xtreme 基准测试的多个零 - shot 跨语言下游任务中表现优异。
Feb, 2022
提出了一种神经编码器 - 解码器机器翻译模型框架,该模型开始交替学习语法和翻译,逐渐将重点放在翻译上,实现了在相对较大的平行语料库(WMT14 英语到德语)和低资源(WIT 德语到英语)设置中的 BLEU 得分显着提高。
Apr, 2018
本文介绍了一种利用多任务学习方法训练神经机器翻译模型并进行相关性辅助任务(RAT)来进行搜索查询翻译的方法。我们的多任务学习方法在意大利语 - 英语查询文档数据集上达到了 16% 的改进效果,并通过定量和定性分析展示了该模型的平衡和精准的翻译生成和正则化效果。
Jun, 2019
本研究探讨了采用神经网络翻译和预训练多语言神经语言模型是否能提升多语言信息检索 (MLIR) 技术。结果表明,使用预训练的 XLM-R 多语言语言模型以其母语进行索引,可以在索引时间大大缩短的情况下取得与神经翻译相结合的最佳效果。
Sep, 2022
本文介绍了 ColBERT-X,这是一个使用 XLM-RoBERTa 编码器的多重表示稠密检索模型,用于支持跨语言信息检索(CLIR)。在几种语言的自适应文件排名任务上表现出了在传统词汇 CLIR 基线之上的显着和统计上的显着改进。
Jan, 2022