Jul, 2024

GPT-4 对人类翻译员的全面评估:跨语言、领域和专业水平的翻译质量

TL;DR本研究针对大规模语言模型(LLMs),特别是 GPT-4,在多语言对和领域中,对不同翻译专业水平的人类翻译员进行全面评估,发现 GPT-4 在总体错误数量上表现与初级翻译员相当,但在中级和高级翻译员之下。我们还观察到在不同语言和领域中性能不平衡,GPT-4 的翻译能力从资源丰富的方向逐渐减弱。此外,我们定性地研究了 GPT-4 和人类翻译员的翻译结果,发现 GPT-4 的翻译存在逐字翻译的问题,而人类翻译员有时过于思考背景信息。据我们所知,本研究是首次对 LLMs 与人类翻译员进行评估并分析其输出之间的系统差异,为我们了解基于 LLM 的翻译目前的状态和潜在限制提供了有价值的见解。