多元评分组的（不）一致性评估框架

Nov, 2023

多元评分组的（不）一致性评估框架

A Framework to Assess (Dis)agreement Among Diverse Rater Groups

Vinodkumar Prabhakaran, Christopher Homan, Lora Aroyo, Alicia Parrish, Alex Taylor...

TL;DR通过提出争议分析框架以测量不同评分人群的系统多样性，研究领域的人口统计轴线对安全批注至关重要。

Abstract

Recent advancements in conversational ai have created an urgent need for safety guardrails that prevent users from being exposed to offensive and dangerous content. Much of this work relies on human ratings and f

conversational ai safety guardrails offensive content subjective perceptions systematic disagreements

发现论文，激发创造

评分者分歧的分类：从在线毒性注释角度调查挑战与机遇

在线空间中的毒性问题是一个日益普遍且严重的问题，因此，过去十年的机器学习研究重点放在计算检测和缓解在线毒性上。然而，由于历史上此类标注往往存在较低的一致性，最近的研究指出了在构建和利用这些数据集时考虑这一任务的主观性的重要性，并激发了对评定者不一致性进行分析和更好理解以及如何将其有效纳入机器学习开发流程的研究。虽然这些努力填补了重要的空白，但缺乏更广泛的评定者不一致性根本原因的框架，因此我们将这项工作置于更广泛的背景之上。在这篇综述论文中，我们分析了关于在线毒性评定者不一致性原因的大量文献，并提出了详细的分类法。此外，我们还总结和讨论了针对每个不一致性原因的潜在解决方案，并讨论了几个能促进未来在线毒性研究发展的开放问题。

Nov, 2023

D3CODE: 跨文化数据中的冒犯性检测与评估中的差异分析

通过广泛的平行标注来考虑不同社会和文化群体的道德价值观，在跨文化数据集中揭示了标注者感知的区域差异，为构建包容性、具有文化敏感性的自然语言处理模型提供了关键见解。

Apr, 2024

当大多数人都错了：利用注释者的分歧来完成主观任务

针对网络暴力检测中的数据标注员意见分歧问题，提出了一种预测个体标注员评估与目标群体意见的模型，并通过结合潜在目标群体与评估进行评估，在预测任务中表现出了 22% 的性能提升和 33% 的模型不确定性预测能力。我们发现，标注员的评估可以通过其在线内容的人口统计信息和意见进行预测，而无需跟踪标注员 ID。同时，我们还发现在预测标注员意见时，使用非侵入性调查问题有助于最大程度保护隐私和最小化不必要的个人信息收集。

May, 2023

众人的声音都很重要：利用人口统计信息量化注释不一致性

通过提取注释者在五个主观数据集中的选票历史中的不同意标签，并微调语言模型来预测注释者的不同意。结果表明，了解注释者的人口统计信息可以帮助预测不同意见。通过模拟不同的注释者人工人口统计信息，来区分文本内容固有的争议和注释者不同观点之间的分歧，旨在通过一种新颖的分歧预测机制，改进注释流程，实现更高效和包容性的 NLP 系统。

Jan, 2023

同意不同意：在冒犯性词语数据集上注释注解者的不同意见

本文提出了一种用于创建自然语言数据集的方法，通过将标注者的观点选为不同的训练集和测试集，可以提高分类器的性能和鲁棒性，为社交媒体中的恶意语言检测提供更好的数据准备。

Sep, 2021

主观数据的主观众群分歧：通过群体级学习揭示有意义的众人观点

通过使用语言特征和标签分布，我们介绍了一种无监督学习方法 CrowdOpinion，用于将类似项目汇集为更大的标签分布样本，其中涉及人工智能系统的公平性和人工注释者不一致问题的解决。

Jul, 2023

处理意见不合：超越主观标注中的多数派投票

通过研究多注释者模型的功效，我们的多任务方法将预测每个注释者的判断作为单独的子任务并共享任务的共同学习表示来解决注释者间的不一致性问题，并且表明这种方法比在训练之前聚合标签的方法在七个不同的二元分类任务中产生了相同或更好的性能。此外，在我们的方法中，我们证明我们可以估计不确定性，这些不确定性更好地与注释不一致性相关联，而这种模型不确定性特别适用于知道何时不作出预测的部署场景。

Oct, 2021

探索对话系统中的社交偏见：框架、数据集和基准

本文提出了一种社会偏见检测的新框架 Dial-bias，通过该框架构建了中文社会偏见对话数据集，并建立了不同粒度和输入类型的对话偏见检测基准，旨在帮助实践中构建更安全的对话系统。

Feb, 2022

SemEval-2023 任务 11 的 iLab：建模分歧还是建模不同观点？

使用现有多任务模型评估并结合模型仿真方法与个体标注者观点来预测个体标注者的不一致性，得出具体少数观点的模型更适用于模型预测。

May, 2023

将主观众评估作为改进自然语言生成的附加客观标准的估计

本文探讨在多任务学习设置中，使用主观评估作为语言生成模型训练的一部分，并使用群众创作对话语料库对六种不同的语言生成模型进行微调。评估显示，多任务学习的模型生成的话语在主观上评分最高，且在推动对话发展、无冒犯性等方面得分最高。因此，将来可以研究将主观人类评估纳入语言生成模型训练中，从而在开发过程中更好地与人类用户进行交互。

Apr, 2021