Jun, 2024

探究人机评估并行口语翻译的相关性

TL;DR评估口译服务的表现是一项复杂的任务,尤其是在应用自动评估方法时,本研究旨在通过分析自动度量与人工评估之间的相关性来评估同传口译的可靠性,结果表明 GPT 模型,特别是 GPT-3.5 具有最强的语义相似性相关性,即使在评估短文本片段时也是如此。