关键词automated evaluation methods
搜索结果 - 2
- 探究人机评估并行口语翻译的相关性
评估口译服务的表现是一项复杂的任务,尤其是在应用自动评估方法时,本研究旨在通过分析自动度量与人工评估之间的相关性来评估同传口译的可靠性,结果表明 GPT 模型,特别是 GPT-3.5 具有最强的语义相似性相关性,即使在评估短文本片段时也是如 - OpinSummEval: 重新审视舆情摘要自动评估
观点总结与其他类型的总结任务有所不同,因为其独特关注于方面和情感。本文介绍了 OpinSummEval,它是一个包含人工评价和 14 个观点总结模型输出的数据集。我们进一步探讨了 24 个自动评估指标与人工评分之间在四个维度上的相关性。结果