最佳 - 最差量表比打分量表更可靠:一个情感强度标注的案例研究
大语言模型对于分类注释的自动化主要用于处理标注语料库的瓶颈问题,但对于连续标签分配的自动化注释尚无相关研究。本研究通过对情感强度进行自动化预测,并比较直接使用评分标注、两两比较和最佳 - 最差比例三种方法,发现最后一种方法具有最高的可靠性。在这些数据上微调的 Transformer 回归器表现几乎与原始手动标注模型相当。
Mar, 2024
本文介绍使用 Best-Worst Scaling 技术获取三个不同领域(一般英语,英语 Twitter 和阿拉伯语 Twitter)中单词和短语的情感关联分数,并确定了一种语言本土人民可以感知的情感关联最小差异。
Dec, 2017
本文旨在研究从文本中检测情感强度的任务。我们创建了第一个标记有愤怒、恐惧、喜悦和悲伤强度的推文数据集,并使用最佳 - 最差比例(BWS)技术提高注释一致性和获得可靠的细粒度分数。我们发现情感词 hashtag 通常会影响情感强度,通常传达更强烈的情感。最后,我们创建了一个基准回归系统,并进行实验,以确定哪些特征对于检测情感强度有用,以及两种情感在语言表现方面的相似程度。
Aug, 2017
本文介绍了第一次分享任务,利用 “最优 - 最劣” 刻度(BWS)技术创建了推文的情绪强度数据集,并展示了标注数据的可靠性和机器学习系统的效果,增进了语言传达情绪强度的理解。
Aug, 2017
本文提出了一种高效的人工评分数据集构建以及系统质量评估方法,通过直接评估、网络成对排名汇总、混合法等三种评分方式来促进有效标注标量标签,并将其应用于数据集构建和系统评估,以提高与真值的相关性和评估的效率。
Jun, 2018
本文介绍了一种名为 “语义缩放” 的新方法,用于从文本中进行理想点估计。利用大规模语言模型根据表达的立场对文档进行分类,并提取类似调查的数据。然后使用项目反应理论对这些数据进行尺度化处理。语义缩放显著改进了现有的基于文本的尺度化方法,并允许研究人员明确定义他们所测量的意识形态维度。这是首个在调查工具之外提供此种灵活性的尺度化方法,为难以进行调查的人群开辟了新的研究途径。此外,它适用于不同长度的文档,并生成对大众和精英意识形态的有效估计。作者证明该方法能区分政策偏好和内外群体情感,并根据人类判断在公众中表现出更好的效果。在国会中,它重新捕捉到了第一维 DW-NOMINATE,并在解决构建效度挑战方面具有更大的灵活性。
May, 2024
通过试验比较离散评分、连续评分和最佳 - 最差评分,研究了四种实验条件对人类对话系统输出评分的影响,其中发现连续评分比 Likert 评分或基于排名的实验设计更具一致性,而完成任务的时间和无类似研究经验的参与者也可在评分一致性和协议方面起积极作用。
Sep, 2019
我们的研究关注中等规模的单词的具体性评分,并通过相关性和监督分类来识别显著的多模式特征,应用硬聚类方法来确定评分者之间系统性分歧的模式。结果表明,在利用中等规模的目标词之前,需要对其进行微调或过滤。
Nov, 2023