可重现的主观评估

ICLRMar, 2022

Reproducible Subjective Evaluation

Max Morrison, Brian Tang, Gefei Tan, Bryan Pardo

TL;DR本文提出了 ReSEval，这是一种开源框架，可从 Python 直接快速部署 crowdsourced 主观评估，以方便研究人员运行主观评估以及通过共享配置文件和音频、图像、文本或视频文件来重现彼此的主观评估。

Abstract

Human perceptual studies are the gold standard for the evaluation of many research tasks in machine learning, linguistics, and psychology. However, these studies require significant time and cost to perform. As a result, many researchers use objective measures that can correlate poorly

subjective evaluation reproducible subjective evaluation crowdsourced python machine learning

发现论文，激发创造

将主观众评估作为改进自然语言生成的附加客观标准的估计

本文探讨在多任务学习设置中，使用主观评估作为语言生成模型训练的一部分，并使用群众创作对话语料库对六种不同的语言生成模型进行微调。评估显示，多任务学习的模型生成的话语在主观上评分最高，且在推动对话发展、无冒犯性等方面得分最高。因此，将来可以研究将主观人类评估纳入语言生成模型训练中，从而在开发过程中更好地与人类用户进行交互。

Apr, 2021

无标准数据情况下的众包研究 -- 案例分析

本文研究了在线辅导平台上对话的困扰个体的情绪估计的主观评估任务，探讨了聚合评估者选择的策略，展示了一个简单的投票共识与优化聚合方法在这个任务中同样有效，并设计了一种机器学习算法来执行相同的任务。有趣的是，我们观察到了一个没有明确建模评估者主观性的机器学习算法，在评估最主要的情绪时与人类评估一样可靠。

Jun, 2019

基于在线学习的众包环境下基于偏好的主观评估的自动设计优化

通过在线学习算法，我们提出了一种自动优化的方法来解决基于偏好的主观评估在众包环境中大规模测试时的配对组合选择和评估数量的分配问题。实验结果表明，我们的方法成功地通过减少配对组合数量并为每个配对分配最佳的评估数量来优化测试，同时不损害评估准确性和预算分配的浪费。

Mar, 2024

通过稳定的排名概率寻找可复制的人类评估

本文以机器翻译及其人类评估框架 MQM 为案例研究，旨在探讨如何建立可靠的人类评估，以获得稳定的结论，并提供设计可复制的人类评估研究的具体建议，同时发布了由多名专业翻译人员评分的最大公开可用翻译数据集。

Apr, 2024

第七届 CHiME 挑战赛 UDASE 任务中语音增强方法的客观和主观评估

本文针对 CHiME-7 UDASE 任务，通过主观和客观评估系统的结果，揭示了主观评分与最近提出的几个监督非入侵性性能指标在语音增强中的有限相关性，并指出可以使用更传统的入侵性客观指标来评估基于回声的 LibriCHiME-5 数据集的领域内性能。

Feb, 2024

主观性实验中主体行为的简单模型

本文提出了一个简单的模型来解决主题不准确的困扰，并通过比较真实数据和合成模拟来证明其价值和优越性。

Apr, 2020

基于屏幕的 3D 主观实验软件

通过使用一款强大的软件，我们可以设计灵活的三维主观研究方法并构建高质量的数据集，从而准确展示三维刺激的感知质量差异，并通过实验结果证明该软件可以产生合理的三维模型主观质量评分。

Aug, 2023

HighRES：基于重点提取的无参考自动文摘评价

该研究提出了一种由多个评注者对原始文档进行手动评估的新方法，称为基于高亮参考的摘要评估（HighRES），可用于评估多个系统的摘要内容，并说明其相对于其他评估方法具有更好的评注者间一致性，并能够突显其他评估方法忽略的系统差异。

Jun, 2019

NLP 中无法评估先前人类评估的再现性：信息缺失，作者不响应，实验缺陷

该研究为了检查人类对 NLP 的评估是否可重复进行了集体研究，结果发现大多数近期的研究不可重复、不可复制，需要重新设计并报告人类对 NLP 的评估方式。

May, 2023

自然语言处理结果再现性的定量化评估

本文描述并测试了一种基于计量学概念和定义的量化再现性评估（QRA）方法。 QRA 可以根据不同再现之间的分数和差异，为给定系统和评估措施估计再现性程度，并且我们在 18 个系统和评估措施组合上测试了 QRA，表明 QRA 方法产生的再现度分数不仅可以比较同一原始研究的多次再现，还可以比较不同原始研究的多次再现，并可用于发现再现之间的差异并得出改进再现性的结论。

Apr, 2022