最佳 - 最差量表比打分量表更可靠：一个情感强度标注的案例研究

ACLDec, 2017

最佳 - 最差量表比打分量表更可靠：一个情感强度标注的案例研究

Best-Worst Scaling More Reliable than Rating Scales: A Case Study on Sentiment Intensity Annotation

Svetlana Kiritchenko, Saif M. Mohammad

TL;DR本研究比较了评分尺度方法和最佳 - 最差比较法在数据注释中的可靠性，结果表明，在相同的标注总数量下，最佳 - 最差比较法比评分尺度方法产生了更可靠的结果。

Abstract

Rating scales are a widely used method for data annotation; however, they present several challenges, such as difficulty in maintaining inter- and intra-annotator consistency. →

rating scale data annotation best-worst scaling inter-annotator consistency intra-annotator consistency

发现论文，激发创造

您是一个专家标注员”：情绪强度建模的自动最佳最差标度标注

大语言模型对于分类注释的自动化主要用于处理标注语料库的瓶颈问题，但对于连续标签分配的自动化注释尚无相关研究。本研究通过对情感强度进行自动化预测，并比较直接使用评分标注、两两比较和最佳 - 最差比例三种方法，发现最后一种方法具有最高的可靠性。在这些数据上微调的 Transformer 回归器表现几乎与原始手动标注模型相当。

Mar, 2024

通过众包和最佳 - 最差比例尺捕获可靠的细粒度情感关联

本文介绍使用 Best-Worst Scaling 技术获取三个不同领域（一般英语，英语 Twitter 和阿拉伯语 Twitter）中单词和短语的情感关联分数，并确定了一种语言本土人民可以感知的情感关联最小差异。

Dec, 2017

推文中的情绪强度

本文旨在研究从文本中检测情感强度的任务。我们创建了第一个标记有愤怒、恐惧、喜悦和悲伤强度的推文数据集，并使用最佳 - 最差比例（BWS）技术提高注释一致性和获得可靠的细粒度分数。我们发现情感词 hashtag 通常会影响情感强度，通常传达更强烈的情感。最后，我们创建了一个基准回归系统，并进行实验，以确定哪些特征对于检测情感强度有用，以及两种情感在语言表现方面的相似程度。

Aug, 2017

WASSA-2017 情感强度共享任务

本文介绍了第一次分享任务，利用 “最优 - 最劣” 刻度（BWS）技术创建了推文的情绪强度数据集，并展示了标注数据的可靠性和机器学习系统的效果，增进了语言传达情绪强度的理解。

Aug, 2017

有界支持的高效在线标量注释

本文提出了一种高效的人工评分数据集构建以及系统质量评估方法，通过直接评估、网络成对排名汇总、混合法等三种评分方式来促进有效标注标量标签，并将其应用于数据集构建和系统评估，以提高与真值的相关性和评估的效率。

Jun, 2018

语义缩放：使用大型语言模型的贝叶斯理想点估计

本文介绍了一种名为 “语义缩放” 的新方法，用于从文本中进行理想点估计。利用大规模语言模型根据表达的立场对文档进行分类，并提取类似调查的数据。然后使用项目反应理论对这些数据进行尺度化处理。语义缩放显著改进了现有的基于文本的尺度化方法，并允许研究人员明确定义他们所测量的意识形态维度。这是首个在调查工具之外提供此种灵活性的尺度化方法，为难以进行调查的人群开辟了新的研究途径。此外，它适用于不同长度的文档，并生成对大众和精英意识形态的有效估计。作者证明该方法能区分政策偏好和内外群体情感，并根据人类判断在公众中表现出更好的效果。在国会中，它重新捕捉到了第一维 DW-NOMINATE，并在解决构建效度挑战方面具有更大的灵活性。

May, 2024

评估对话系统输出的最佳实验设计

通过试验比较离散评分、连续评分和最佳 - 最差评分，研究了四种实验条件对人类对话系统输出评分的影响，其中发现连续评分比 Likert 评分或基于排名的实验设计更具一致性，而完成任务的时间和无类似研究经验的参与者也可在评分一致性和协议方面起积极作用。

Sep, 2019

看星星：利用类别关系进行有关评分尺度的情感分类

本文介绍了解决情感分析中不同等级评分问题的方法，通过使用基于度量标签的元算法改进了分类器，来提高对相似物品的等级识别准确性。

Jun, 2005

中等规模评级的争议性质研究：抽象性 - 具体性连续性案例研究

我们的研究关注中等规模的单词的具体性评分，并通过相关性和监督分类来识别显著的多模式特征，应用硬聚类方法来确定评分者之间系统性分歧的模式。结果表明，在利用中等规模的目标词之前，需要对其进行微调或过滤。

Nov, 2023

情感评分：强度、注释置信度和一致性的纠缠

人类判断文本情感内容时，情感强度影响了他们的自信程度，影响了标注结果的一致性，而这一现象对情感强度的建模有重要影响。

Mar, 2021