- COLING巴斯克语中的事件提取:基于语言类型学的跨语言迁移学习分析
跨语言转移学习对事件抽取研究中,源语言和目标语言的类型学相似度是否影响转移性能进行了探讨,并发现源语言与目标语言之间的共享语言特征对转移质量产生影响。该研究还介绍了一种 Basque 的事件抽取数据集 EusIE,供公众使用。
- EMNLP多语言和混码数据收集和准备中被遗忘的代表性原则
研究分析了现有的跨语言切换数据集,揭示了大多数数据涉及英语,忽略了其他语言对 / 元组,并且在数据收集和准备阶段存在代表性方面的缺陷,忽视了跨语言切换中的地理位置、社会人口统计学和注册变化。最后提供了一个简短的清单,以改善与跨语言切换数据收 - 直接神经机器翻译模型及任务级混合专家
通过对 Task-level MoE 在直接 NMT 中的适用性进行研究,我们提出了一系列高性能的训练和评估配置,通过这些配置,基于 Task-level MoE 的直接 NMT 系统在大多数低资源和高资源的直接语言对和翻译方向上优于双语和 - 使用同声传译数据进行标记的端到端同声传译训练
本文介绍了一种使用混合数据来训练 SimulST 模型的有效方法,该方法使用了同声传译的数据和离线的双语数据,以及风格标签来指示模型生成同声传译或离线风格的输出。实验结果表明在不同的延迟范围内 BLEURT 有所改善,并且分析结果表明该模型 - EMNLPMT-GenEval:一个反事实和情境语料库,用于评估机器翻译中的性别准确性
这篇论文介绍了 MT-GenEval,一个用于评估英语到八种广泛使用语言的翻译中的性别准确性的基准测试,通过提供现实的、性别平衡的、反事实数据来补充现有基准测试,包括需要跨句子的性别协议的多句子片段。
- 动态隐变量感知器实现高效语音翻译
该研究提出了一种使用感知器编码器和动态潜在访问训练的语音到文本转换技术,这种技术在 MuST-C 数据集上的三种语言中可以与 Transformer 基线模型的性能相匹配,并且可以在推理过程中灵活部署,适应多种计算预算,而不会导致显著降低翻 - 通过控制源和模糊匹配交互来改进检索增强的神经机器翻译
提出了一种新的方法,控制源句子和前 K 模糊匹配目标语言句子之间的交互,用于零样本自适应的机器翻译模型,实验证明该方法超越了以前的方法,提高了 BLEU 的分数,并在多个语言对和领域上进行了测试。
- 多语言神经机器翻译的语言家族适配器
本文提出在预训练的多语言模型上训练语言家族适配器,以促进跨语言转移。该模型一致优于其他基于适配器的方法,并证明了语言家族适配器提供了一种有效的将语言翻译到预训练期间未见过的语言的方法。
- WMT22 通用机器翻译任务的自动评估
本文介绍了第七届机器翻译会议的机器翻译任务自动评估,其中评估了 185 种系统,包括高资源到低资源语言对和从密切相关到远离的语言。自动度量标准 chrF、BLEU 和 COMET 可以相互补充以减轻解释性和准确性方面的限制,并凸显了当前最先 - ACL神经机器翻译中集成向量化词汇约束
该研究提出了一种直接将词汇约束集成到神经机器翻译模型中的方法,通过将词汇约束向量化为连续的键和值,并利用 NMT 模型的注意力模块来表征词汇约束对,并在四种语言对上表明了该方法的优越性。
- ICML自我监督的自动后编辑数据生成工具
开发了自我监督的数据生成工具,可以用于多种语言对的自动后编辑(APE)数据建设,以支持基于数据的 APE 研究,解决目前由于数据不足而无法进行的语言对研究问题。
- EMNLP分布式稳健多语言机器翻译
本论文提出了一种新的 MNMT 学习目标,基于分布式鲁棒优化,使得这个方法在多种语言对上都可以均衡地表现,并展示了如何实际优化大型翻译语料库。经过广泛实验,证明我们的方法在平均和单个语言翻译表现方面始终优于强基线方法在多对一和一对多的翻译设 - 低资源机器翻译调查
介绍了低资源机器翻译研究领域的现状,重点是在少量翻译训练数据的情况下制备有用的翻译模型的挑战以及在近期几个共享任务中评估研究者的技术的描述。
- Tatoeba 翻译挑战:低资源和多语言 MT 的现实数据集
本文介绍了一种新的机器翻译基准,为超过 500 种语言的数千种语言对提供了训练和测试数据,并提供了从该集合创建最先进的翻译模型的工具,旨在促进开放翻译工具和具有更广泛语言覆盖范围的模型的发展。
- 学习评估英语之外的翻译:BLEURT 参加 WMT 评估 2020 共享任务
本文介绍了我们在 WMT 2020 Metrics Shared Task 中的贡献,通过扩展 BLEURT 度量标准评估 14 种语言对以及 4 种 ' 零样本 ' 语言对,针对英德语言对结合 BLEURT 和 YiSi 的预测结果进行性 - EMNLPLNMap: 基于潜空间非线性映射的双语词典感应中的同构假设偏移
提出了一种新的半监督方法,通过两个独立训练的自编码器的潜在空间使用非线性映射,学习用于双语词汇识别的跨语言词嵌入表示,并在 15 种不同方向的语言对(包括资源丰富和低资源语言)的两个数据集上进行了广泛的实验,结果表明该方法优于现有模型。
- 无监督机器翻译何时有效?
通过对不同语言对、语料库和低资源语言实施 extensive empirical evaluation,我们发现 unsupervised machine translation 的性能很大程度上取决于 source 和 target co - ACL面向几何感知的领域自适应方法用于词嵌入无监督对齐
提出了一种基于流形的几何学方法,用于学习源语言和目标语言之间的无监督对齐单词嵌入。该方法将对齐学习问题进行了公式化,并将其视为具有两倍随机矩阵的流形上的域自适应问题。实验表明,该方法在多种语言对的双语词汇识别任务上优于现有的最优传输方法,尤 - ACL基于跨语言句子移位距离的大规模多语言文档对齐
本文提出一种基于跨语言句嵌入的无监督打分函数,用于计算不同语言中文档之间的语义距离,从而指导文档对齐算法以适当地匹配跨语言 Web 文档,并在不同语言对中显著提高对齐效果。
- ACL远程语言无监督中介翻译
本研究提出了一种基于无监督的跨语言翻译模型,采用多跳的方式将源语言翻译为目标语言,通过语言对之间的最佳翻译路径选择,最终在 20 种语言和 294 个跨度较大的语言对的实验中展示了该方法的优势。