翻译中体裁和方法差异的语言学特征:计算视角
本文介绍了应用语法测试套件对 WMT19 提交的德语 - 英语机器翻译系统的结果,其中包含 107 个类别的详细分析。研究表明,这些系统中有四分之一的测试项目翻译错误率仍很高,其中包括习语、动词语态等。与去年相比,功能词、非动词一致性和标点符号等方面有所改善。本文还给出了关于特定系统和现象的更详细的结论。
Oct, 2019
使用指令与参数框架、生成式语言模型、指数族矩阵分解等方法建立语言结构的概率模型,实现了对不同语言之间结构的预测,并表明语言嵌入的预训练可以推广到未观察的语言。
Mar, 2019
本文探讨了自然语言变体的研究,通过识别语言特征(例如零 be 动词结构)在语料库中的分布情况,分析这些特征在不同语境中的变化,提出了一种基于人工编辑的自动检测方法,并在印度英语和非裔美国英语方面的实验中展示了该方法的有效性。
Sep, 2022
通过机器学习,利用支持向量机对汉语翻译文本和原生文本进行基于句法特征的区分。通过使用对称的语料库,以短语分析树和依存三元组不带词汇信息特征进行分类,结果表明仅仅用句法特征即可区分出原生汉语和翻译汉语。
Apr, 2018
本文分析了用于英语、法语、德语和西班牙语识别人工智能生成文本和人类生成文本的特征,并对不同语言进行了比较。研究了两种情况:(1) 检测由人工智能生成的原创文本,和 (2) 检测由人工智能重新表述的文本。通过建立包含每种语言 10 个主题的新文本语料库来训练和测试这个多语言环境中的分类器。特征的组合在检测人工智能生成的文本时表现最好,说明这些特征可以应用于其他相关语言:西班牙语的 F1 得分接近 99%,英语为 98%,德语为 97%,法语为 95%。在检测人工智能重新表述的文本时,大多数情况下使用所有特征的系统效果最好,但对于德语(72%)和西班牙语(86%),仅使用文档特征最好,而对英语则仅使用文本向量特征可获得最佳结果(78%)。
Dec, 2023
本研究通过比较传统的基于特征工程的方法和基于特征学习的神经结构,分析了翻译文本的语言特征识别任务,并探讨了手工特征和神经模型预测的变量。研究表明神经结构比传统的特征工程方法优越,如 BERT 模型在单语和多语言场景下的表现最佳,而特征重要性分析也表明手工特征与神经结构的重要特征不同,多语言实验提供了翻译普遍特征的经验证据。
Sep, 2021
在这篇论文中,我们专注于英土文学翻译,开发了考虑到译者文体特征的机器翻译模型,并通过手动对齐的作品来微调预训练的机器翻译模型。我们详细分析了手动和自动对齐、数据增强方法和语料库规模在翻译中的影响。我们提出了一种基于文体特征的方法来评估翻译输出的译者文体,证明通过将模型适应译者的文体,可以高度重现人类翻译者的文体。
Jul, 2023