- 新型冠状病毒领域的机器翻译:英爱案例研究(LoResMT 2021)
通过使用特定领域的翻译模型将 Covid 数据从英语翻译成爱尔兰语,我们应用了领域自适应技术,并比较了微调、混合微调和组合数据集等方法,其中最佳模型使用了一个在领域内的 Covid 数据集来训练 Transformer 架构,并将领域内的基 - 韩国古代文献的标点修复模型和间隔模型
我们开发了第一个模型,用于预测韩国历史文本中的标点和间距,并评估了其性能,标点恢复模型的 F1 分数达到了 0.84,间距模型的分数达到了 0.96。它具有在低性能 GPU 上进行推论的优势,并保持相当高的准确性。
- 基于大型语言模型的文档级机器翻译
本文研究利用 Chat-GPT 建立的大型语言模型在文档级机器翻译中的应用,通过评估话语建模的能力,比较它与商业翻译系统和高级文档级机器翻译方法的性能,发现 Chat-GPT 在人类评估方面表现优异,同时揭示了话语建模的挑战和机遇。
- 非分段输入的同步翻译:滑动窗口方法
提出一种基于滑动窗口的方法来翻译语音识别输出,实验结果表明比传统的 ASR 分段方法提高了 1.3-2.0 BLEU 分数,且减少了重新翻译的需要。
- EMNLP非自回归神经机器翻译:呼唤清晰度
本文旨在改进非自回归方法在机器翻译方面的表现,探讨了多种技术提升其翻译质量和效率,并将其在四个翻译任务上进行了评估,考虑到 tokenized BLEU 的使用不一致,我们贡献了标准化的 BLEU、chrF++ 及 TER 得分,并将代码开 - ACL通过联邦学习训练混合领域翻译模型
本文利用联邦学习来处理复杂的混合域翻译模型训练任务,证明了在训练过程中进行轻微的修改并采用基于联邦学习的聚合方法,可以轻松地适应不同域,从而构建出与依赖于集中式训练技术的最先进基准相媲美的神经机器翻译引擎。同时,此研究还在五个数据集上进行了 - PICT@DravidianLangTech-ACL2022:德拉维达语言的神经机器翻译
本文介绍了关于南印度德拉维达语系机器翻译的研究成果,通过针对五种不同德拉维达语系的机器翻译和使用 Seq2Seq 模型进行训练,我们在其中三项子任务中名列第一,并以 BLEU 分数作为评估指标测试了模型的准确性。
- ACL三角形转移:为三角形机器翻译锁定旋转点
本文提出了一种基于迁移学习的三角形机器翻译方法,利用辅助数据训练源 - 中转、中转 - 目标翻译模型,初始化中转侧的一些参数以鼓励两个翻译模型在同一中转语言空间中工作,实验结果表明我们的方法优于先前方法。
- 低资源机器翻译调查
介绍了低资源机器翻译研究领域的现状,重点是在少量翻译训练数据的情况下制备有用的翻译模型的挑战以及在近期几个共享任务中评估研究者的技术的描述。
- 语言表征空间中的低维结构在大脑响应中有所体现
研究了神经语言模型、翻译模型和语言标注任务中学习到的表示之间的关系,发现了一种低维的语言表示嵌入模型,可以编码处理各种 NLP 任务所需的表示之间的关系,并且可以用来预测各种特征空间与人类大脑对自然语言刺激的响应之间的映射关系,同时主要维度 - Tatoeba 翻译挑战:低资源和多语言 MT 的现实数据集
本文介绍了一种新的机器翻译基准,为超过 500 种语言的数千种语言对提供了训练和测试数据,并提供了从该集合创建最先进的翻译模型的工具,旨在促进开放翻译工具和具有更广泛语言覆盖范围的模型的发展。
- 一份高质量的多语言结构化文档翻译数据集
本文针对结构化文本本地化的研究,提出了一种高质量的多语种数据集,并构建和评估了针对七种目标语言的翻译模型,实验结果表明,使用 XML 标签可以提高翻译精确度。
- ICLR朝向现代标准阿拉伯手语生成术语表
研究人员尝试将现代标准阿拉伯语 (MSAr) 翻译成手语,并通过提取必要的特征,生成动画手势模型,以帮助聋人更好地沟通。
- ACL训练,分类,解释:学习诊断翻译模型
本文介绍了一种基于神经文本分类器的方法,将自然语言处理中翻译模型的自动化评估与人类评估相结合,并揭示人机差异,其中包含翻译质量和人工智能的深入讨论。
- 关注力带来的信心
本文提出利用注意力分布作为翻译置信度测量的方法,成功地应用到两种不同的翻译系统中,译文 BLEU 值分别提高了 2.22 和 0.99。
- EMNLPSGNMT -- 一个灵活的 NMT 解码平台,用于快速原型制作新的模型和搜索策略
介绍了 SGNMT 平台,它提供了一种与神经和符号打分模块的通用接口,可以与各种打分和约束方式组合,实现了多种遍历搜索策略,并易于添加新的打分模块或解码策略,可用于机器翻译研究的快速实验。
- 神经机器翻译的词汇选择策略
本文介绍了关于翻译模型的研究,尝试通过使用上下文和嵌入式选择方法对其进行改进,可以大幅度地提高神经翻译模型的效率和速度。
- 自动发现平行数据中的非组合性复合词
本文提出一种基于翻译模型的文本分割方法,用于识别翻译时作为一个单元的语言序列,在机器翻译任务中有着不错的性能表现,不依赖于特定数据来源,可应用于多种平行语料数据。