关键词automatic evaluation methods
搜索结果 - 10
- GAIA: AI 生成视频行动质量评估的重新思考
通过从因果推理的新颖视角进行大规模主观评估,我们构建了一个通用的人工智能生成动作数据集 GAIA,用以评估文本到视频模型在生成视觉合理的动作方面的能力。结果显示,传统的动作质量评估方法、近期 T2V 基准中与动作相关的指标以及主流的视频质量 - KIEval:大型语言模型的基于知识的交互评估框架
KIEval 是一个知识驱动的交互式评估框架,通过在常规 LLM 基准问题中引入一个 LLM 增强的 “交互者” 角色,进行动态抗干扰评估,以确定模型的回答是否仅仅是基准答案的回忆,还是展示了更复杂对话中应用知识的深度理解。对五个数据集上的 - 自动评估方法在面向指导型语言模型中的可靠性研究
我们对基于文本重叠和大型语言模型判断的自动化方法在广泛任务和跨语言环境中的可靠性进行了研究,发现自动评估方法与人类评估者之间的相关性在任务类型不同的情况下存在相当大的变异性。尽管自动评估方法在特定条件下可以近似人类判断,但其可靠性高度依赖于 - 结构度量解锁:引入 PDD,一种用于位置语篇连贯性的自动度量
提出一种新的,用于量化两篇长篇文章之间的话语分歧的自动度量标准,该指标在代表性领域的三个数据集上进行了广泛的实验,证明与人类的偏好和 GPT-4 的连贯性评估更加一致,并且胜过了现有的评估方法。
- 基于 LLM 的自然语言生成评估:现状与挑战
自然语言生成(NLG)的评估是人工智能中一个重要但具有挑战性的问题。本文调查了基于大型语言模型的 NLG 评估方法,探讨了它们的优势和劣势,讨论了人机合作的 NLG 评估,并提出了该领域的几个开放问题和未来的研究方向。
- ACL重新审视开放域对话系统中的回应评估
通过分析和研究,本文从交互对话参与者的角度探讨了自动回复评估器所需的功能特征,并通过实验发现交互对话参与者的意识在确保自动回复评估与其判断相关性方面起着关键作用。同时,通过大规模对话数据集的使用,证明了对话连续性预测可以训练出一个具备交互对 - ACLRADE:基于参考的开放领域对话评估
使用参考答案辅助的多任务学习框架可以评估开放领域对话系统,有效解决多对多问题,通过人工标注获取多个评分而非仅限于黄金答案,实验证明该方法优于现有基准。
- 评估开放式问答系统评估
本研究针对认知智能领域中的 Open Question Answering 任务进行评估,提出了 QA Evaluation 任务和相应的数据集,在考虑到自动评估方法的局限性的基础上,采用人工评估来更准确地衡量基于人工智能的答案的准确性和 - 风格迁移的人工评估综述
本文回顾和总结了 97 篇风格迁移论文中人类评估实践的三个主要方面:风格迁移、含义保留和流畅性,并指出在风格迁移论文中,人类评估协议通常没有明确规定和标准化,这阻碍了该领域的研究可重复性和朝着更好的人类和自动评估方法的发展的进步。
- 创意和机器学习:一项调查
该研究综述了机器学习和创造力领域的发展历程和现状,重点介绍了计算创造力理论、生成式深度学习和相应的自动评估方法,并讨论了当前研究面临的挑战和新机遇。