从集体人类意见中我们能学到自然语言推理数据的什么？

EMNLPOct, 2020

从集体人类意见中我们能学到自然语言推理数据的什么？

What Can We Learn from Collective Human Opinions on Natural Language Inference Data?

Yixin Nie, Xiang Zhou, Mohit Bansal

TL;DR通过 ChaosNLI 数据集，该研究发现人们在 NLI 评估中存在高度的主观性，新颖度极强的数据集会导致现有模型表现不佳，并提出了考虑人类评价的分布的新评估指标。

Abstract

Despite the subjective nature of many NLP tasks, most nlu evaluations have focused on using the majority label with presumably high agreement as the ground truth. Less attention has been paid to the distribution of human opinions. We collect ChaosNLI, a dataset with a total of 464,500

nlu evaluations chaosnli dataset human agreement state-of-the-art models distribution over human labels

发现论文，激发创造

分布式 NLI：学习预测人类观点分布的语言推理

介绍了分布式 NLI 任务，并探究了通过 Monte Carlo Dropout、Deep Ensemble、Re-Calibration 和 Distribution Distillation 等分布估计方法来更有效地捕捉人类判断分布的模型。说明了对一个示例进行多次注释对建模人类判断分布的价值，但最佳结果仍远低于人类的上限，最后支持特定情况下这些方法的使用并鼓励未来的工作。

Apr, 2021

主观数据的主观众群分歧：通过群体级学习揭示有意义的众人观点

通过使用语言特征和标签分布，我们介绍了一种无监督学习方法 CrowdOpinion，用于将类似项目汇集为更大的标签分布样本，其中涉及人工智能系统的公平性和人工注释者不一致问题的解决。

Jul, 2023

捕获标签分布：自然语言推理案例研究

研究了自然语言推理任务中固有人类分歧 (注释标签分布) 的估计。通过后处理平滑预测的标签分布以匹配期望的标签熵取得了很好的效果。同时，通过引入有多个参考的少量样例进行训练，相较于传统做法每个训练样本只采集一个参考，我们发现这种多参考的方法可以在固定注释预算下实现更好的精度。最后，提供了对比这两种方法的丰富分析，用于改进标签分布估计。

Feb, 2021

关于发布数据集中的标注者层次标签和信息

本文探讨了通过众包方式进行 NLP 数据集标注时，标注者之间的社会文化背景和个体经验差异可能导致的标签汇总引入了代表性偏差，并提高了数据集透明度和实用性的建议。

Oct, 2021

WANLI: 工人与人工智能合作创建自然语言推理数据集

通过使用自然语言生成技术和人工智能协作来创造数据集，以及使用 WANLI 数据集训练模型取得了较高精度，具有以下关键词：众包、NLP 数据集、数据集创作、人工智能、自然语言推理

Jan, 2022

大型语言模型是否能像人类一样推断和产生分歧？

本文研究大型语言模型在处理自然语言推理任务上的表现，并通过 Monte Carlo Reconstruction 和 Log Probability Reconstruction 两种方法评估其与人类理解的一致性，结果表明大型语言模型在 NLI 任务和人的理解差异分布方面表现不佳。

May, 2023

有效的人工标注代理：工业自然语言处理中大型语言模型的集成不一致得分

在这篇论文中，我们通过在关键词提取任务上的评估，展示了集成不一致分数作为语言模型在零样本、少样本和微调设置下人类标注的代理的良好效果。通过与真实错误进行比较，我们发现，不一致分数比使用另一个语言模型作为机器标签或银标签，更好地估计了模型的性能，其平均误差率低至 0.4％，平均比使用银标签提高了 13.8％。

Sep, 2023

通过解释理解和预测自然语言推理中的人类标签变化

该论文创建了一个包含注解高亮和自由文本解释的生态有效的自然语言推断数据集 --LiveNLI。使用该数据集对思维链进行提示，发现目前 GPT-3 在预测标签分布方面仍有改进的空间

Apr, 2023

语义文本相似性中的群体人类观点

本研究提出了第一个拥有约 15,000 个中文句子对和 150,000 个标签的不确定性感知语义文本相似度（STS）数据集（USTS），旨在研究 STS 中的集体人类观点。通过分析可以发现，一个标量或一个高斯分布无法充分地适应观测到的判定集合。我们进一步展示了当前的 STS 模型无法捕捉到由个别实例上的人类意见分歧引起的方差，而是反映了对整体数据集的预测置信度。

Aug, 2023

众人的声音都很重要：利用人口统计信息量化注释不一致性

通过提取注释者在五个主观数据集中的选票历史中的不同意标签，并微调语言模型来预测注释者的不同意。结果表明，了解注释者的人口统计信息可以帮助预测不同意见。通过模拟不同的注释者人工人口统计信息，来区分文本内容固有的争议和注释者不同观点之间的分歧，旨在通过一种新颖的分歧预测机制，改进注释流程，实现更高效和包容性的 NLP 系统。

Jan, 2023