- 错误跨度标注:人工评估机器翻译的平衡方法
机器翻译评估中,综合的错误分类方法如多维度质量度量 (MQM) 需要耗费大量时间和专家参与,而只赋予整体评分,如直接评估 (DA),虽然简单快捷但可靠性较低。本文提出一种人工评估协议 —— 错误跨度标注 (ESA),将 DA 的连续评分与 - 面向主观 NLP 任务的标注者中心主动学习
利用主观自然语言处理任务进行准确的人类判断的关键是在注释过程中纳入广泛的视角。引入了注释者中心主动学习策略 (ACAL),结合数据采样和注释者选择策略,旨在高效地近似获取人类判断的全面多样性,并使用注释者中心度量评估模型性能。对于七个主观自 - 大型语言模型中的范围模糊性
研究了不同版本的自回归语言模型(GPT-2,GPT-3/3.5,Llama 2 和 GPT-4)如何处理涉及语义操作符的语义模糊句子,并与人类判断进行比较。发现几个模型对这些句子中的含义模糊很敏感,与人类判断相吻合,并且能够以高准确度(某些 - 口语对话语句的实用相似性判断集合
该研究开发了第一个人类判断话语对之间的语用相似性的人类评价数据集,并在英语和西班牙语上获得了较高的平均评委相关性,从而为训练语音合成器、评估机器翻译和评估学习者表现提供了自动话语相似性度量的基础。
- 文本生成动作的最佳自动评估指标是什么?
人们对从自然语言描述中生成基于骨架的人类动作越来越感兴趣。本文系统地研究了哪些度量标准与人类评价最为相关,并提出了新的度量标准,这些度量标准与人类判断之间的相关性更好。通过对样本水平的人类评价,发现目前用于此任务的度量标准中没有一个与人类判 - 自动度量文本生成偏好评级中的错误校正
本文介绍了一种基于统计模型的文本生成评估方法,利用自动化度量的优点和人工评级的精度,通过最佳组合的方式来改进文本生成评估的准确度,而且只需要使用人工评注的 50% 即可获得与 100% 人工评级相同的评估结果。
- 大型语言模型不是公正的评估器
本文发现了采用大型语言模型(LLMs)作为评判器来评分候选模型生成内容质量的评估范式中的系统偏差。作者提出了两种校准策略来解决这个问题。经过广泛实验,这种方法成功缓解了评估偏差,与人类判断更加接近。为了促进更加强大的大型语言模型比较的未来研 - 使用 ChatGPT 进行文本风格转移的多维度评估
本文旨在通过评估 ChatGPT 在文本风格转换多维度评估中的作用,与现有的自动度量以及人类判断的对比。结果表明,在不同等级下,与现有的自动度量相比,ChatGPT 与人类判断具有相似的相关性。
- ICLRFLAN-T5 中的语义特征验证
本研究使用大型语言模型评估其在生成语义特征规范中的潜力,结果表明机器验证的规范能够捕捉到超出人工规范表达的概念结构,并更好地解释异类物品之间的语义相似性,这些结果提示 LLMs 可以极大地增强传统的语义特征验证方法,并对我们理解人类和机器的 - 自然语言生成中的自动评估的玻璃天花板
本文对比了现有的自动评估指标和人工评估指标,发现自动评估指标与人工评估指标相比非常相似,并提出了未来评估工作的建议。
- ACL生成和评估语言的双重排行榜
提出了一种新的比较模型,即 Bidimensional Leaderboards,这种模型同时跟踪语言生成模型的进展和评价指标,通过人类评价,对评价指标进行排名和选择,以模型和评价指标为竞争方,最后得出一个集成评价指标。
- ACL自然语言生成指标在系统水平的统计优势
本文分析了自动测量指标和人类判断系统质量估计方面的优劣,指出在人类判断样本数少或对比系统之间质量差异小时自动测量指标能优于人类判断。
- QuestEval: 基于事实的评估对于摘要很重要
本文提出了一种称为 QuestEval 的新方法,通过问题回答模型评估摘要是否包含源文档中的所有相关信息,从而在一致性、连贯性、流畅性和相关性等四个评估维度上,显著改善了与人类判断的相关性,而不需要任何先验参考。
- EMNLPKLearn: 从总结数据中推断出背景知识
本文研究了文本摘要中的背景知识,提出了一种技术来推断摘要数据中的背景知识,设计了能够明确建模背景知识的摘要评分函数,并证明这些函数显著地适合人类判断。
- SummEval: 重评摘要评估
本文针对现有的缺陷和问题,提出了五个维度的解决方案,从而能够扩大文本摘要的评估标准,并且进一步研究出与人类判断更加相关的评价指标。
- 评估对话系统输出的最佳实验设计
通过试验比较离散评分、连续评分和最佳 - 最差评分,研究了四种实验条件对人类对话系统输出评分的影响,其中发现连续评分比 Likert 评分或基于排名的实验设计更具一致性,而完成任务的时间和无类似研究经验的参与者也可在评分一致性和协议方面起积 - ACUTE-EVAL: 优化问题和多轮比较的对话评估改进
本研究提出一个基于自我对话模型的评价过程,旨在寻找一种在不同注释人员之间具有更强鲁棒性的评级测试方案。经过实验证明,在这种方案下,我们可以在更快、更便宜的情况下推出新的测试标准并发布开源代码。
- ACL评估图像描述的视觉保真度
本文提出了一种新颖、基于图像的衡量标准 VIFIDEL,用于评估图像描述生成系统。该评估系统可以不依赖人类提供的参考描述,准确可靠地评估系统描述,并且在两个著名数据集上具有人类评价高度相关的特点,竞争力与依赖人类参考的指标相当。
- 度量学习用于个体公平性
提出了一种基于人类判断的 “个体公正” 近似度量的解决方案,该模型假定我们可以获得人类的公正裁决者,其可以回答关于特定任务的个体相似性的有限一组查询,该模型包括相关的度量逼近定义,逼近构造和学习程序。
- 评价问答生成系统的更优指标
本文研究了使用 $n$-gram 相识度量(例如 BLEU、NIST 等)来评估自然语言生成(NLG)系统的性能,尤其是其在从文档、知识图谱、图像等中自动生成问题的系统中的应用。研究发现,当前的自动评估指标并不总是能够客观地评估生成问题的可