辛普森悖论与翻译的准确性与流利性权衡
评估口译服务的表现是一项复杂的任务,尤其是在应用自动评估方法时,本研究旨在通过分析自动度量与人工评估之间的相关性来评估同传口译的可靠性,结果表明 GPT 模型,特别是 GPT-3.5 具有最强的语义相似性相关性,即使在评估短文本片段时也是如此。
Jun, 2024
本文重新评估了一项最近的研究 (Hassan et al.,2018),即使用成对排序法并考虑到三个变量,重申机器翻译在从中文到英文的新闻翻译方面已达到人类水平,我们提供了一组人类评估未来机器翻译的建议。
Aug, 2018
论文提出了一种引入评估模块来指导预测结果分布的神经机器翻译方法,从流畅性和忠实度的角度引导模型生成具有连接性的短语,实验结果表明,该方法可以显著提高翻译质量。
Nov, 2019
研究发现 2018 年 Hassan 等人的评估设计有问题,导致其认为人工翻译和机器翻译有同等水平的结论不准确,因此需要重新审视现有的评估方法,并且提出了一系列改进建议。
Apr, 2020
在评估跨语言语言理解的常用基准(如 XNLI)中,通过专业翻译人员创建用于多个目标语言的英文评估集的平行版本非常重要,以确保所有目标语言的高质量翻译,以准确地进行跨语言转移的表征。本研究发现,存在翻译的不一致性,并且这些不一致性在 XNLI 中对于低资源语言具有不成比例的影响。通过在多个目标语言的人工翻译和机器翻译目标文本之间进行零 - shot 评估的性能差距来识别这种不一致性,表现出相对较大的差距即为翻译错误的指示。此外,通过对印地语和乌尔都语这两种目标语言进行人工重新注释的方式,我们证实了翻译错误的存在,并发现这些实例与其原始的英文标签之间存在较差的一致性。
Feb, 2024
本研究探索了一种同时实现语音转写和翻译的方法,并比较了传统串联式方法和端到端模型的表现。研究发现,直接模型不适用于这一任务,但采用耦合推理过程的端到端模型能够实现强一致性。此外,研究还引入了直接优化一致性的简单技术,并分析了一致性、转写准确性和翻译准确性之间的权衡。
Jul, 2020
本研究探讨在多语言任务中同时使用源语言和目标语言翻译数据的效果,并得出使用翻译工具造成的风格化翻译差异是提高性能的主要因素。此外,我们提出了一种名为 MUSC 的跨语言微调算法,该方法结合了 SupCon 和 MixUp,可以进一步提高多语言分类任务的性能。
Oct, 2022
大型语言模型在对意义保持改写的输入作出回应时表现不一致。我们提出了一种度量自然语言推理模型改写一致性的评估指标,该指标基于模型在同一问题的两个改写上的正确性概率,并将其与改写相关的正确性变化的比例数学上相连。通过收集 ParaNLU 数据集,我们测量了几种模型类别的改写一致性,并展示了一致性随预训练而显著增加,而微调则没有。所有测试模型在改写一致性方面都有改进的空间。
Apr, 2024