捕获标签分布：自然语言推理案例研究

Feb, 2021

捕获标签分布：自然语言推理案例研究

Capturing Label Distribution: A Case Study in NLI

Shujian Zhang, Chengyue Gong, Eunsol Choi

TL;DR研究了自然语言推理任务中固有人类分歧 (注释标签分布) 的估计。通过后处理平滑预测的标签分布以匹配期望的标签熵取得了很好的效果。同时，通过引入有多个参考的少量样例进行训练，相较于传统做法每个训练样本只采集一个参考，我们发现这种多参考的方法可以在固定注释预算下实现更好的精度。最后，提供了对比这两种方法的丰富分析，用于改进标签分布估计。

Abstract

We study estimating inherent human disagreement (annotation label distribution) in natural language inference task. Post-hoc smoothing of the predicted →

natural language inference human disagreement label distribution kl divergence training examples

发现论文，激发创造

分布式 NLI：学习预测人类观点分布的语言推理

介绍了分布式 NLI 任务，并探究了通过 Monte Carlo Dropout、Deep Ensemble、Re-Calibration 和 Distribution Distillation 等分布估计方法来更有效地捕捉人类判断分布的模型。说明了对一个示例进行多次注释对建模人类判断分布的价值，但最佳结果仍远低于人类的上限，最后支持特定情况下这些方法的使用并鼓励未来的工作。

Apr, 2021

拥抱不确定性：转变 NLI 模型的训练目标

本文研究了在自然语言推理任务中训练模型时，直接使用标注者标签分布的方法而非正确标签的方法，并准备了 AmbiNLI 数据集，经过模型微调可以降低混沌度得分，并可提高模型性能和下游任务的表现。

Jun, 2021

从集体人类意见中我们能学到自然语言推理数据的什么？

通过 ChaosNLI 数据集，该研究发现人们在 NLI 评估中存在高度的主观性，新颖度极强的数据集会导致现有模型表现不佳，并提出了考虑人类评价的分布的新评估指标。

Oct, 2020

基于群众标注的多视角知识蒸馏用于领域外泛化

本文提出了新的方法以通过温度调节和 Jensen-Shannon 中心法从众包注释中汇总多个视角的分布，从而获得软标签。我们展示了这些聚合方法在四项自然语言处理任务中表现出最佳或接近最佳的性能，同时还验证了这些方法在任务不确定性估计上表现最佳。

Dec, 2022

不同标注数量下的学习：从零到多标签

该研究论文通过在一小部分训练样例中为每个样例分配多个标签的方法，提出可通过利用不同标注数量的训练样例，设计高效的学习算法，提高自然语言处理的任务表现。

Sep, 2021

通过解释理解和预测自然语言推理中的人类标签变化

该论文创建了一个包含注解高亮和自由文本解释的生态有效的自然语言推断数据集 --LiveNLI。使用该数据集对思维链进行提示，发现目前 GPT-3 在预测标签分布方面仍有改进的空间

Apr, 2023

通过少量解释来近似人类对 NLI 的判断分布：从小处寻找大视角

利用少数专家标签和解释，借助大规模语言模型 (LLM) 近似人类判断分布 (HJD), 从而提供了一种对 HJD 进行标注扩展的解决方案。然而，利用 LLM 生成的判断分布 (MJD) 进行微调时，结果存在部分不一致性，需要同时使用全局级的形状度量和可视化来更有效地评估 MJD 和 HJD 的一致性。

Jun, 2024

通过集成对抗训练避免自然语言推理中仅有假设的偏差

采用对抗性训练和敌对对抗方法的集成来降低自然语言推理中的偏见，这种方法比先前的去偏见努力表现更好，并且在推广到 12 个其他数据集时表现良好。

Apr, 2020

不确定的自然语言推断

本文介绍了不确定的自然语言推断（UNLI），它是自然语言推断（NLI）的一种改进，通过预测主观概率评估来预测结果，利用概率评估重新标记了部分 SNLI 数据集，并使用现有的分类标签化的 NLI 数据进行预训练，最终模型展示了超越分类标签化的 NLI 任务的更微妙推断的人类表现水平。

Sep, 2019

关于发布数据集中的标注者层次标签和信息

本文探讨了通过众包方式进行 NLP 数据集标注时，标注者之间的社会文化背景和个体经验差异可能导致的标签汇总引入了代表性偏差，并提高了数据集透明度和实用性的建议。

Oct, 2021